Піраміда (обробка зображень)

Пірамі́да або пірамі́дне подання́ (англ. pyramid, pyramid representation) — це один з типів багатомасштабного подання сигналу, розроблений спільнотами комп'ютерного бачення, обробки зображень та обробки сигналів, у якому сигнал або зображення підлягає багаторазовому згладжуванню[en] та субдискретизації. Пірамідне подання є попередником масштабопросторового подання та кратномасштабного аналізу[en].

Візуальне подання піраміди зображення з 5 рівнями

Породження піраміди ред.

Існує два основні типи пірамід: низькочастотні (англ. lowpass) та смугові (англ. bandpass).

Низькочастотну піраміду створюють згладжуванням зображення відповідним згладжувальним фільтром із наступною субдискретизацією згладженого зображення, зазвичай удвічі вздовж кожного з координатних напрямів. Потім отримане зображення піддають тій же процедурі, й повторюють цей цикл декілька разів. Кожна ітерація цього процесу видає зображення меншого розміру з підвищеним згладжуванням, але зі зниженою густиною просторової вибірки (тобто зменшеною роздільністю зображення). Якщо проілюструвати це графічно, то все багатомасштабне подання виглядатиме як піраміда з первинним зображенням внизу й меншими зображеннями результатів кожної з ітерацій, складеними одне на одне.

Смугову піраміду створюють формуванням різниці між зображеннями на суміжних рівнях піраміди й виконанням інтерполювання зображення між суміжними рівнями роздільності, щоб уможливити обчислення попіксельних різниць.[1]

Ядра породження пірамід ред.

Для породження пірамід було запропоновано багато різних ядер згладжування.[2][3][4][5][6][7] Серед запропонованих, біноміальні ядра (англ. binomial kernels), що виникають з біноміальних коефіцієнтів, виділяють як особливо корисний і теоретично добре обґрунтований клас.[3][8][9][10][11] Таким чином, маючи двовимірне зображення, ми можемо застосовувати (нормований) біноміальний фільтр (1/4, 1/2, 1/4), зазвичай двічі або більше вздовж кожного просторового виміру, а потім субдискретизувати зображення з коефіцієнтом два. Потім цю операцію можна виконувати скільки завгодно разів, отримуючи в результаті компактне та ефективне багатомасштабне подання. Якщо на це є конкретні вимоги, також можна створювати проміжні рівні масштабу, де етап субдискретизації іноді пропускають, що дає наддискретизовану (англ. oversampled) або гібридну піраміду (англ. hybrid pyramid).[10] Зі збільшенням обчислювальної ефективності доступних сьогодні процесорів у деяких ситуаціях також можливо використовувати як ядра згладжування на етапах породження піраміди ширше підтримувані гауссові фільтри.

Гауссова піраміда ред.

У гауссовій піраміді (англ. Gaussian pyramid) послідовні зображення зважують за допомогою гауссового усереднювання (гауссового розмиття) і зменшують. Кожен піксель, що містить локальне усереднення, відповідає окільному пікселю на нижчому рівні піраміди. Цю методику використовують зокрема в синтезуванні текстур[en].

Лапласова піраміда ред.

Лапласова піраміда (англ. Laplacian pyramid) дуже схожа на гауссову, але зберігає зображення різниць розмитих версій між кожними рівнями. Лише найменший рівень не є різницевим зображенням, щоб уможливити відтворення зображення високої роздільності за допомогою різницевих зображень на вищих рівнях. Цю методику можливо використовувати для стискання зображень.[12]

Керована піраміда ред.

Керована піраміда, розроблена Сімончеллі[en] та іншими, — це втілення багатомасштабного, багатонапрямового банку смугових фільтрів, який використовують для таких застосувань як стискання зображень, синтезування текстур[en], та розпізнавання об'єктів[en]. Її можливо розглядати як напрямово вибірковий варіант лапласової піраміди, у якій на кожному її рівні використовують банк керованих фільтрів замість одного лапласового чи гауссового фільтра.[13][14][15]

Застосування пірамід ред.

Альтернативне подання ред.

У ранні часи комп'ютерного бачення піраміди використовували як основний тип багатомасштабного подання для обчислення багатомасштабних ознак зображень із даних зображень реального світу. До новіших методик належить масштабопросторове подання, що було популярним серед деяких дослідників завдяки його теоретичній основі, здатності відокремлювати етап субдискретизації від багатомасштабного подання, потужнішим інструментам для теоретичного аналізу, а також здатності до обчислення подання в будь-якому бажаному масштабі, з униканням таким чином алгоритмічних проблем зв'язку подань зображень з різною роздільністю. Тим не менше, піраміди все ще часто використовують для вираження обчислювально ефективних наближень масштабопросторового подання.[10][16][17]

Маніпулювання детальністю ред.

Рівні лапласової піраміди можливо додавати до первинного зображення або вилучати з нього, щоби посилювати або ослаблювати детальність на різних масштабах. Проте відомо, що маніпулювання детальністю такого вигляду в багатьох випадках створює артефакти гало, що веде до розробки альтернатив, таких як білатеральний фільтр.

Деякі формати файлів стискання зображень використовують алгоритм Adam7[en] або іншу методику перемежовування[en]. Їх можливо розглядати як своєрідну піраміду зображення. Оскільки ці формати файлів зберігають з початку файлу «великомасштабні» ознаки, з тонкими деталями далі файлом, певний переглядач, який відображує маленьку «мініатюру» або на маленькому екрані, може швидко завантажити рівно стільки зображення, щоби відобразити його в доступні пікселі, щоб один файл міг підтримувати багато роздільностей перегляду, замість того, щоб зберігати або породжувати окремий файл для кожної роздільності.

Див. також ред.

Примітки ред.

  1. E.H. Andelson and C.H. Anderson and J.R. Bergen and P.J. Burt and J.M. Ogden. "Pyramid methods in image processing". 1984. (англ.)
  2. Burt, P. J. Fast filter transform for image processing. Computer Graphics and Image Processing. 16: 20—51. doi:10.1016/0146-664X(81)90092-7. {{cite journal}}: Проігноровано невідомий параметр |dfate= (довідка) (англ.)
  3. а б Crowley, James L. (November 1981). A representation for visual information. Carnegie-Mellon University, Robotics Institute. tech. report CMU-RI-TR-82-07. (англ.)
  4. Burt, Peter; Adelson, Ted (1983). The Laplacian Pyramid as a Compact Image Code (PDF). IEEE Trans. Commun. 9 (4): 532—540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. (англ.)
  5. Crowley, J. L.; Parker, A. C. (March 1984). A representation for shape based on peaks and ridges in the difference of low-pass transform. IEEE Transactions on Pattern Analysis and Machine Intelligence. 6 (2): 156—170. CiteSeerX 10.1.1.161.3102. doi:10.1109/TPAMI.1984.4767500. PMID 21869180. S2CID 14348919. (англ.)
  6. Crowley, J. L.; Sanderson, A. C. (1987). Multiple resolution representation and probabilistic matching of 2-D gray-scale shape (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (1): 113—121. CiteSeerX 10.1.1.1015.9294. doi:10.1109/tpami.1987.4767876. PMID 21869381. S2CID 14999508. (англ.)
  7. Meer, P.; Baugher, E. S.; Rosenfeld, A. (1987). Frequency domain analysis and synthesis of image generating kernels. IEEE Transactions on Pattern Analysis and Machine Intelligence. 9 (4): 512—522. doi:10.1109/tpami.1987.4767939. PMID 21869409. S2CID 5978760. (англ.)
  8. Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, pp. 234-254. (англ.)
  9. Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, ISBN 0-7923-9418-6 (див. конкретно огляд гауссових та лапласових пірамід у розділі 2 та теорію про узагальнені біноміальні ядра та дискретні гауссові ядра в розділі 3) (англ.)
  10. а б в Lindeberg, T. and Bretzner, L. Real-time scale selection in hybrid multi-scale representations, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science, volume 2695, pages 148-163, 2003. (англ.)
  11. Див. дуже стислий теоретичний виклад у статті про багатомасштабні підходи
  12. Burt, Peter J.; Adelson, Edward H. (1983). The Laplacian Pyramid as a Compact Image Code (PDF). IEEE Transactions on Communications. 31 (4): 532—540. CiteSeerX 10.1.1.54.299. doi:10.1109/TCOM.1983.1095851. (англ.)
  13. Simoncelli, Eero. The Steerable Pyramid. cns.nyu.edu. (англ.)
  14. Manduchi, Roberto; Perona, Pietro; Shy, Doug (1997). Efficient Deformable Filter Banks (PDF). California Institute of Technology/University of Padua. Архів оригіналу (PDF) за 12 листопада 2021. Процитовано 6 жовтня 2022.
    Також у Manduchi, R.; Perona, P.; Shy, D. (1998). Efficient Deformable Filter Banks. Transactions on Signal Processing. 46 (4): 1168—1173. Bibcode:1998ITSP...46.1168M. CiteSeerX 10.1.1.5.3102. doi:10.1109/78.668570. (англ.)
  15. Stanley A. Klein ; Thom Carney ; Lauren Barghout-Stein and Christopher W. Tyler "Seven models of masking", Proc. SPIE 3016, Human Vision and Electronic Imaging II, 13 (June 3, 1997); DOI:10.1117/12.274510 (англ.)
  16. Crowley, J, Riff O. Fast computation of scale normalised Gaussian receptive fields, Proc. Scale-Space'03, Isle of Skye, Scotland, Springer Lecture Notes in Computer Science[en], volume 2695, 2003. (англ.)
  17. Lowe, D. G. (2004). Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision. 60 (2): 91—110. CiteSeerX 10.1.1.73.2924. doi:10.1023/B:VISI.0000029664.99615.94. S2CID 221242327. (англ.)

Посилання ред.