Структурна подібність

SSIM — це модель, заснована на сприйнятті, яка розглядає погіршення зображення як сприйняту зміну структурної інформації, а також включає важливі явища сприйняття, включаючи як маскування яскравості, так і терміни маскування контрасту. Відмінність від інших методів, таких як середньоквадратична похибка (англ. MSE) або PSNR (англ. peak signal-to-noise ratio), полягає в тому, що ці підходи оцінюють абсолютні похибки. Структурна інформація — це ідея, що пікселі мають сильні взаємозалежності, особливо коли вони просторово близькі. Ці залежності несуть важливу інформацію про структуру об'єктів у візуальній сцені. Маскування яскравості — це явище, при якому спотворення зображення (у цьому контексті) мають тенденцію бути менш помітними в яскравих областях, тоді як контрастне маскування — це явище, при якому спотворення стають менш помітними там, де є значна активність або «текстура» зображення.

Історія ред.

Попередник SSIM називався Universal Quality Index (UQI) або Wang-Bovik Index, який був розроблений Чжоу Вангом та Аланом Бовіком[en] у 2001 році. Завдяки співпраці з Хамідом Шейхом та Ееро Сімончеллі[en] це переросло в поточну версію SSIM, яка була опублікована в квітні 2004 року в IEEE Transactions on Image Processing[en].[1] На додаток до визначення індексу якості SSIM, стаття надає загальний контекст для розробки та оцінки показників якості сприйняття, включаючи зв'язки з людською візуальною нейробіологією та сприйняттям, а також пряму перевірку індексу щодо оцінок людини.

Основна модель була розроблена в Лабораторії інженерії зображень і відео (англ. Laboratory for Image and Video Engineering, LIVE) Техаського університету в Остіні та в подальшому розроблена спільно з Лабораторією обчислювального зору (англ. Laboratory for Computational Vision, LCV) Нью-Йоркського університету. Подальші варіанти моделі були розроблені в Лабораторії зображень і візуальних обчислень в університеті Ватерлоо і були комерційно продані.

Згодом SSIM знайшов широке поширення в спільноті обробки зображень, а також у телевізійній індустрії та в соціальних мережах. Стаття SSIM 2004 року була процитована понад 20 000 разів за даними Google Scholar[2], що робить її однією з найбільш цитованих робіт у сферах обробки зображень та відеоінженерії. Він був удостоєний нагороди IEEE Signal Processing Society[en] Best Paper Award у 2009 році.[3] Він також отримав нагороду IEEE Signal Processing Society[en] Sustained Impact Award за 2016 рік, що свідчить про надзвичайно високий вплив статті протягом принаймні 10 років після її публікації. Через його високе поширення в телевізійній індустрії, кожен із авторів оригінальної статті SSIM отримав премію Primetime Engineering Emmy Award[en] у 2015 році від Телевізійної академії.

Алгоритм ред.

Індекс SSIM розраховується для різних вікон зображення. Міра між двома вікнами   і   загального розміру   є:[4]

 
  •   середнє значення  ;
  •   середнє значення  ;
  •   дисперсія  ;
  •   дисперсія  ;
  •   коваріантність   і  ;
  •  ,   дві змінні для стабілізації ділення зі слабким знаменником;
  •   динамічний діапазон значень пікселів (зазвичай це  );
  •   і   за замовчуванням.

Компоненти формули ред.

Формула SSIM заснована на трьох порівняльних вимірюваннях між зразками   і  : яскравість ( ), контраст

( ) і структура ( ). Окремі функції порівняння:[4]

 
 
 
крім наведених вище визначень:
  •  

Тоді SSIM є зваженою комбінацією цих порівняльних показників:

 

Якщо взяти ваги   рівними 1, то формула буде зведега до наведеного вище виду.

Математичні властивості ред.

SSIM задовольняє тотожності нерозрізнених і властивостей симетрії, але не відповідає нерівності трикутника чи невід'ємності, таким чином, не є функцією відстані. Однак за певних умов SSIM може бути перетворений на нормовану кореневу міру MSE, яка є функцією відстані.[5] Квадрат такої функції не є опуклим, а локально опуклим і квазіопуклим,[5] що робить SSIM можливою метою для оптимізації.

Застосування формули ред.

Щоб оцінити якість зображення, ця формула зазвичай застосовується лише до яскравості[en], хоча вона також може застосовуватися до значень кольору (наприклад, RGB) або хроматичних (наприклад, значення YCbCr[en]). Отриманий індекс SSIM є десятковим значенням від 0 до 1, а значення 1 доступне лише у випадку двох ідентичних наборів даних, отже, вказує на повну структурну схожість. Значення 0 вказує на відсутність структурної подібності. Для зображення він зазвичай розраховується за допомогою ковзного гауссового вікна розміром 11x11 або блокового вікна розміром 8×8. Вікно можна зміщувати піксель за пікселем на зображенні, щоб створити карту якості зображення SSIM. У разі оцінки якості відео[6] автори пропонують використовувати лише підгрупу можливих вікон, щоб зменшити складність розрахунку.

Варіанти ред.

Багатомасштабна SSIM ред.

Більш просунута форма SSIM, яка називається Multiscale SSIM (MS-SSIM)[4], проводиться в декількох масштабах за допомогою процесу кількох етапів підвибірки, що нагадує багатомасштабну обробку в системі раннього бачення. Було показано, що він працює однаково добре або краще, ніж SSIM на різних суб'єктивних базах даних зображень і відео.[4][7][8]

Багатокомпонентний SSIM ред.

Трикомпонентний SSIM (3-SSIM) це форма SSIM, яка враховує той факт, що людське око може бачити відмінності точніше на текстурованих або крайових областях, ніж на гладких областях.[9] Отримана метрика розраховується як середнє зважене значення SSIM для трьох категорій областей: країв, текстур і гладких областей. Запропонована зважування становить 0,5 для країв, 0,25 для текстурованих і гладких областей. Автори зазначають, що зважування 1/0/0 (ігноруючи будь-що, крім викривлень країв) призводить до результатів, ближчих до суб'єктивних оцінок. Це говорить про те, що краєві області відіграють домінуючу роль у сприйнятті якості зображення.

Автори 3-SSIM також розширили модель на чотирикомпонентний SSIM (4-SSIM). Типи країв далі поділяються на збережені та змінені ребра за статусом спотворення. Запропонована зважування становить 0,25 для всіх чотирьох компонентів.[10]

Структурна несхожість ред.

Структурна несхожість (DSSIM) може бути отримана з SSIM, хоча вона не є функцією відстані, оскільки нерівність трикутника не обов'язково виконується.

 

Показники якості відео та тимчасові варіанти ред.

Варто зазначити, що оригінальна версія SSIM була розроблена для вимірювання якості нерухомих зображень. Він не містить жодних параметрів, безпосередньо пов'язаних із тимчасовими ефектами людського сприйняття та людських суджень.[7] Звичайною практикою є обчислення середнього значення SSIM для всіх кадрів у відеопослідовності. Проте було розроблено кілька тимчасових варіантів SSIM.[11][6][12]

Комплексний вейвлет SSIM ред.

Складний варіант вейвлет-перетворення SSIM (CW-SSIM) призначений для вирішення проблем масштабування, трансляції та повороту зображення. Замість того, щоб давати низькі оцінки зображенням з такими умовами, CW-SSIM використовує переваги складного вейвлет-перетворення, отже дає вищі оцінки зазначеним зображенням. CW-SSIM визначається наступним чином:

 
Де   — це комплексне вейвлет-перетворення сигналу   і   — комплексне вейвлет-перетворення для сигналу   . Крім того,   це невелике додатне число, яке використовується для забезпечення стабільності функції. В ідеалі вона повинна бути нульовою. Як і SSIM, CW-SSIM має максимальне значення 1. Максимальне значення 1 вказує на те, що два сигнали абсолютно схожі за структурою, тоді як значення 0 вказує на відсутність структурної подібності.[13]

SSIMPLUS ред.

Індекс SSIMPLUS заснований на SSIM і є комерційно доступним інструментом.[14] Він розширює можливості SSIM, в основному для цільових відеопрограм. Він надає оцінки в діапазоні від 0 до 100, які лінійно відповідають суб'єктивним оцінкам людини. Він також дозволяє адаптувати оцінки до призначеного пристрою для перегляду, порівнюючи відео з різними роздільною здатністю та вмістом.

За словами його авторів, SSIMPLUS досягає більш високої точності та швидкості, ніж інші показники якості зображення та відео. Однак незалежне оцінювання SSIMPLUS не проводилося, оскільки сам алгоритм не є загальнодоступним.

cSSIM ред.

Для подальшого дослідження стандартної дискретної SSIM з теоретичної точки зору було введено та досліджено неперервну SSIM (cSSIM)[15] в контексті інтерполяції радіальної базисної функції[en].

Інші прості модифікації ред.

Метрика взаємної кореляції r* заснована на метриці дисперсії SSIM. Він визначається як r*(x, y) = σxyσxσy

коли обидва стандартних відхилення дорівнюють нулю, і 0, коли лише один дорівнює нулю. Він знайшов застосування при аналізі реакції людини на фантоми з контрастними деталями.[16]

SSIM також використовувався для градієнта зображень, що робить його «G-SSIM». G-SSIM особливо корисний для розмитих зображень.[17]

Наведені вище модифікації можна комбінувати. Наприклад, 4-Gr* є комбінацією 4-SSIM, G-SSIM і r*. Він здатний відображати переваги рентгенологів до зображень набагато краще, ніж інші протестовані варіанти SSIM.[18]

Застосування ред.

SSIM має програми для вирішення різноманітних проблем. Деякі приклади:

  • Стиснення зображення: під час стиснення зображень із втратами інформація навмисно відкидається, щоб зменшити простір для зберігання зображень і відео. MSE зазвичай використовується в таких схемах стиснення. За словами його авторів, використання SSIM замість MSE пропонується для отримання кращих результатів для розпакованих зображень.[13]
  • Відновлення зображення: відновлення зображення фокусується на вирішенні проблеми  де   є розмитим зображенням, яке слід відновити,   це ядро розмиття,   є адитивним шумом і   це оригінальне зображення, яке ми хочемо відновити. Традиційним фільтром, який використовується для вирішення цієї проблеми, є фільтр Вінера. Однак конструкція фільтра Вінера заснована на MSE. За словами авторів алгоритму, використання варіанту SSIM, зокрема Stat-SSIM, дає кращі візуальні результати.[13]
  • Розпізнавання шаблонів: оскільки SSIM імітує аспекти людського сприйняття, його можна використовувати для розпізнавання шаблонів. Коли стикаються з такими проблемами, як масштабування зображення, переклад і поворот, автори алгоритму стверджують, що краще використовувати CW-SSIM,[19] який нечутливий до цих варіацій і може бути безпосередньо застосований шляхом зіставлення шаблонів без використання навчального зразка. Оскільки підходи до розпізнавання шаблонів, керовані даними, можуть забезпечити кращу продуктивність, коли велика кількість даних доступна для навчання, автори пропонують використовувати CW-SSIM в підходах, керованих даними.[19]

Порівняння продуктивності ред.

Через його популярність SSIM часто порівнюють з іншими показниками, включаючи простіші показники, такі як MSE і PSNR, а також інші показники якості зображення та відео, що сприймаються. Неодноразово було показано, що SSIM значно перевершує MSE та його похідні за точністю, включаючи дослідження його власних авторів та інших.[7][20][21][22][23][24]

У статті Доссельмана і Янга стверджується, що продуктивність SSIM «набагато ближча до продуктивності MSE», ніж зазвичай припускається. Хоча вони не заперечують переваги SSIM над MSE, вони констатують аналітичну та функціональну залежність між двома показниками.[8] Згідно з їхніми дослідженнями, було виявлено, що SSIM корелює, а також методи на основі MSE для суб'єктивних баз даних, відмінних від баз даних від творців SSIM. Як приклад вони наводять Рейбмана і Пула, які виявили, що MSE випереджає SSIM у базі даних, що містить відео з втратою пакетів.[25] В іншій статті було виявлено аналітичний зв'язок між PSNR та SSIM.[26]

Див. також ред.

Примітки ред.

  1. Wang, Zhou; Bovik, A.C.; Sheikh, H.R.; Simoncelli, E.P. (1 квітня 2004). Image quality assessment: from error visibility to structural similarity. IEEE Transactions on Image Processing. 13 (4): 600–612. Bibcode:2004ITIP...13..600W. CiteSeerX 10.1.1.2.5689. doi:10.1109/TIP.2003.819861. ISSN 1057-7149. PMID 15376593. 
  2. Google Scholar. scholar.google.com. Процитовано 4 липня 2019. 
  3. IEEE Signal Processing Society, Best Paper Award. 
  4. а б в г Wang, Z.; Simoncelli, E.P.; Bovik, A.C. (1 листопада 2003). Multiscale structural similarity for image quality assessment. Conference Record of the Thirty-Seventh Asilomar Conference on Signals, Systems and Computers, 2004. Т. 2. с. 1398–1402 Vol.2. doi:10.1109/ACSSC.2003.1292216. ISBN 978-0-7803-8104-9. 
  5. а б Brunet, D.; Vass, J.; Vrscay, E. R.; Wang, Z. (April 2012). On the mathematical properties of the structural similarity index. IEEE Transactions on Image Processing. 21 (4): 2324–2328. Bibcode:2012ITIP...21.1488B. doi:10.1109/TIP.2011.2173206. PMID 22042163. 
  6. а б Wang, Z.; Lu, L.; Bovik, A. C. (February 2004). Video quality assessment based on structural distortion measurement. Signal Processing: Image Communication. 19 (2): 121–132. CiteSeerX 10.1.1.2.6330. doi:10.1016/S0923-5965(03)00076-6. 
  7. а б в Søgaard, Jacob; Krasula, Lukáš; Shahid, Muhammad; Temel, Dogancan; Brunnström, Kjell; Razaak, Manzoor (14 лютого 2016). Applicability of Existing Objective Metrics of Perceptual Quality for Adaptive Video Streaming. Electronic Imaging. 2016 (13): 1–7. doi:10.2352/issn.2470-1173.2016.13.iqsp-206. 
  8. а б Dosselmann, Richard; Yang, Xue Dong (6 листопада 2009). A comprehensive assessment of the structural similarity index. Signal, Image and Video Processing. 5 (1): 81–91. doi:10.1007/s11760-009-0144-1. ISSN 1863-1703. 
  9. Li, Chaofeng; Bovik, Alan Conrad (1 січня 2010). Content-weighted video quality assessment using a three-component image model. Journal of Electronic Imaging. 19 (1): 011003–011003–9. Bibcode:2010JEI....19a1003L. doi:10.1117/1.3267087. ISSN 1017-9909. 
  10. Li, Chaofeng; Bovik, Alan C. (August 2010). Content-partitioned structural similarity index for image quality assessment. Signal Processing: Image Communication. 25 (7): 517–526. doi:10.1016/j.image.2010.03.004. 
  11. Redirect page. www.compression.ru. 
  12. Wang, Z.; Li, Q. (December 2007). Video quality assessment using a statistical model of human visual speed perception. Journal of the Optical Society of America A. 24 (12): B61–B69. Bibcode:2007JOSAA..24...61W. CiteSeerX 10.1.1.113.4177. doi:10.1364/JOSAA.24.000B61. PMID 18059915. 
  13. а б в Zhou Wang; Bovik, A.C. (January 2009). Mean squared error: Love it or leave it? A new look at Signal Fidelity Measures. IEEE Signal Processing Magazine. 26 (1): 98–117. Bibcode:2009ISPM...26...98W. doi:10.1109/msp.2008.930649. ISSN 1053-5888. 
  14. Rehman, A.; Zeng, K.; Wang, Zhou (February 2015). Display device-adapted video quality-of-experience assessment. У Rogowitz, Bernice E; Pappas, Thrasyvoulos N; De Ridder, Huib (ред.). IS&T-SPIE Electronic Imaging, Human Vision and Electronic Imaging XX. Human Vision and Electronic Imaging XX. 9394: 939406. Bibcode:2015SPIE.9394E..06R. doi:10.1117/12.2077917. 
  15. Marchetti, F. (January 2021). Convergence rate in terms of the continuous SSIM (cSSIM) index in RBF interpolation. Dolom. Res. Notes Approx. 14: 27–32. 
  16. Prieto, Gabriel; Guibelalde, Eduardo; Chevalier, Margarita; Turrero, Agustín (21 липня 2011). Use of the cross-correlation component of the multiscale structural similarity metric (R* metric) for the evaluation of medical images: R* metric for the evaluation of medical images. Medical Physics. 38 (8): 4512–4517. doi:10.1118/1.3605634. 
  17. Chen, Guan-hao; Yang, Chun-ling; Xie, Sheng-li (October 2006). Gradient-Based Structural Similarity for Image Quality Assessment. 2006 International Conference on Image Processing: 2929–2932. doi:10.1109/ICIP.2006.313132. 
  18. Renieblas, Gabriel Prieto; Nogués, Agustín Turrero; González, Alberto Muñoz; Gómez-Leon, Nieves; del Castillo, Eduardo Guibelalde (26 липня 2017). Structural similarity index family for image quality assessment in radiological images. Journal of Medical Imaging. 4 (3): 035501. doi:10.1117/1.JMI.4.3.035501. PMC 5527267. PMID 28924574. 
  19. а б Gao, Y.; Rehman, A.; Wang, Z. (September 2011). CW-SSIM based image classification IEEE International Conference on Image Processing (ICIP11). 
  20. Zhang, Lin; Zhang, Lei; Mou, X.; Zhang, D. (September 2012). A comprehensive evaluation of full reference image quality assessment algorithms. 2012 19th IEEE International Conference on Image Processing. с. 1477–1480. doi:10.1109/icip.2012.6467150. ISBN 978-1-4673-2533-2. 
  21. Zhou Wang; Wang, Zhou; Li, Qiang (May 2011). Information Content Weighting for Perceptual Image Quality Assessment. IEEE Transactions on Image Processing. 20 (5): 1185–1198. Bibcode:2011ITIP...20.1185W. doi:10.1109/tip.2010.2092435. PMID 21078577. 
  22. Channappayya, S. S.; Bovik, A. C.; Caramanis, C.; Heath, R. W. (March 2008). SSIM-optimal linear image restoration. 2008 IEEE International Conference on Acoustics, Speech and Signal Processing. с. 765–768. doi:10.1109/icassp.2008.4517722. ISBN 978-1-4244-1483-3. 
  23. Gore, Akshay; Gupta, Savita (1 лютого 2015). Full reference image quality metrics for JPEG compressed images. AEU - International Journal of Electronics and Communications. 69 (2): 604–608. doi:10.1016/j.aeue.2014.09.002. 
  24. Wang, Z.; Simoncelli, E. P. (September 2008). Maximum differentiation (MAD) competition: a methodology for comparing computational models of perceptual quantities. Journal of Vision. 8 (12): 8.1–13. doi:10.1167/8.12.8. PMC 4143340. PMID 18831621. 
  25. Reibman, A. R.; Poole, D. (September 2007). Characterizing packet-loss impairments in compressed video. 2007 IEEE International Conference on Image Processing. Т. 5. с. V – 77–V – 80. doi:10.1109/icip.2007.4379769. ISBN 978-1-4244-1436-9. 
  26. Hore, A.; Ziou, D. (August 2010). Image Quality Metrics: PSNR vs. SSIM. 2010 20th International Conference on Pattern Recognition. с. 2366–2369. doi:10.1109/icpr.2010.579. ISBN 978-1-4244-7542-1. 

Посилання ред.