Виявляння об'єктів

Виявля́ння об'є́ктів (англ. object detection) — це комп'ютерна технологія, пов'язана з комп'ютерним баченням та обробкою зображень, яка має справу з виявлянням примірників семантичних об'єктів певного класу (таких як люди, будівлі чи автомобілі) у цифрових зображеннях та відео.^[1] До добре досліджених областей виявляння об'єктів належать виявляння облич та виявляння пішоходів^[en]. Виявляння об'єктів має застосування у багатьох сферах комп'ютерного бачення, включно з пошуком зображень^[en] та відеоспостереженням.

Об'єкти, виявлені за допомогою модуля *Deep Neural Network* (*dnn*) *OpenCV* за допомогою моделі *YOLOv3*, натренованої на наборі даних *COCO*, здатному виявляти об'єкти 80 загальних класів.

Використання

Виявляння об'єктів на дорозі

Його широко використовують у задачах комп'ютерного бачення, таких як автоматичне анотування зображень^[en],^[2] підрахунок транспортних засобів,^[3] розпізнавання діяльності^[en],^[4] виявляння облич, розпізнавання облич, співсегментування об'єктів у відео^[en]. Його також використовують у відстежуванні об'єктів, наприклад відстежуванні м'яча під час футбольного матчу, відстежуванні руху біти для крикету, або відстежуванні особи на відео.

Концепція

Кожен клас об'єктів має свої ознаки, які допомагають у його класифікуванні — наприклад, усі кола круглі. Виявляння класу об'єктів використовує ці особливі ознаки. Наприклад, при пошуку кіл шукають об'єкти, що перебувають на певній відстані від якоїсь точки (тобто центру). Подібним чином, при пошуку квадратів потрібні об'єкти, які мають перпендикулярні кути та мають однакову довжину сторін. Подібний підхід використовують для встановлювання облич, де можливо знаходити очі, ніс і губи, а також такі ознаки, як колір шкіри та відстань між очима.

Методи

Порівняння швидкості та точності різних виявлячів^[5] на наборі даних Microsoft COCO testdev https://cocodataset.org (усі значення зі статей https://arxiv.org авторів цих алгоритмів)

Методи виявляння об'єктів зазвичай належать або до нейромережних, або до ненейронних підходів. Для ненейронних підходів стає необхідним спочатку визначити ознаки за допомогою одного з наведених нижче методів, а потім використовувати метод, такий як опорновекторні машини (ОВМ, англ. SVM), щоби здійснювати класифікування. З іншого боку, нейронні методики здатні здійснювати наскрізне виявляння об'єктів без спеціального визначення ознак, і зазвичай ґрунтуються на згорткових нейронних мережах (ЗНМ, англ. CNN).

Ненейронні підходи:
- Система Віоли — Джонса виявляння об'єктів на основі гаарових ознак
- Масштабоінваріантне ознакове перетворення (МІОП, англ. SIFT)
- Ознаки гістограм напрямлених градієнтів (ГНГ, англ. HOG)^[6]
Нейромережні підходи:
- Пропозиції областей^[en] (О-ЗНМ, англ. R-CNN,^[7] Fast R-CNN,^[8] Faster R-CNN,^[9] каскадна О-ЗНМ.^[10])
- Одноходовий багаторамковий виявляч (ОКВ, англ. Single Shot MultiBox Detector, SSD)^[11]
- You Only Look Once (YOLO, укр. «ви дивитеся лише раз»)^[12]^[13]^[14]^[5]^[15]
- Одноходова уточнювальна нейронна мережа для виявляння об'єктів (англ. Single-Shot Refinement Neural Network for Object Detection, RefineDet)^[16]
- Retina-Net^[17]^[10]
- Деформовні згорткові мережі (англ. deformable convolutional networks)^[18]^[19]

Див. також

Примітки

↑ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224. (англ.)
↑ Ling Guan; Yifeng He; Sun-Yuan Kung (1 березня 2012). Multimedia Image and Video Processing. CRC Press. с. 331–. ISBN 978-1-4398-3087-1. (англ.)
↑ Alsanabani, Ala; Ahmed, Mohammed; AL Smadi, Ahmad (2020). Vehicle Counting Using Detecting-Tracking Combinations: A Comparative Analysis. 2020 the 4th International Conference on Video and Image Processing. с. 48—54. doi:10.1145/3447450.3447458. ISBN 9781450389075. S2CID 233194604. (англ.)
↑ Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use." 2007 IEEE 11th international conference on computer vision. IEEE, 2007. (англ.)
↑ ^а ^б Bochkovskiy, Alexey (2020). Yolov4: Optimal Speed and Accuracy of Object Detection. arXiv:2004.10934 [cs.CV]. (англ.)
↑ Dalal, Navneet (2005). Histograms of oriented gradients for human detection (PDF). Computer Vision and Pattern Recognition. 1. (англ.)
↑ Ross, Girshick (2014). Rich feature hierarchies for accurate object detection and semantic segmentation (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE. с. 580—587. arXiv:1311.2524. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080. (англ.)
↑ Girschick, Ross (2015). Fast R-CNN (PDF). Proceedings of the IEEE International Conference on Computer Vision. с. 1440—1448. arXiv:1504.08083. Bibcode:2015arXiv150408083G. (англ.)
↑ Shaoqing, Ren (2015). Faster R-CNN. Advances in Neural Information Processing Systems. arXiv:1506.01497. (англ.)
↑ ^а ^б Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 квітня 2019). Libra R-CNN: Towards Balanced Learning for Object Detection. arXiv:1904.02701v1 [cs.CV]. (англ.)
↑ Liu, Wei (October 2016). SSD: Single shot multibox detector. Computer Vision – ECCV 2016. Lecture Notes in Computer Science. Т. 9905. с. 21—37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740. {{cite book}}: Проігноровано |journal= (довідка) (англ.)
↑ Redmon, Joseph (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1506.02640. Bibcode:2015arXiv150602640R. (англ.)
↑ Redmon, Joseph (2017). YOLO9000: better, faster, stronger. arXiv:1612.08242 [cs.CV]. (англ.)
↑ Redmon, Joseph (2018). Yolov3: An incremental improvement. arXiv:1804.02767 [cs.CV]. (англ.)
↑ Wang, Chien-Yao (2021). Scaled-YOLOv4: Scaling Cross Stage Partial Network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2011.08036. Bibcode:2020arXiv201108036W. (англ.)
↑ Zhang, Shifeng (2018). Single-Shot Refinement Neural Network for Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. с. 4203—4212. arXiv:1711.06897. Bibcode:2017arXiv171106897Z. (англ.)
↑ Lin, Tsung-Yi (2020). Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318—327. arXiv:1708.02002. Bibcode:2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. S2CID 47252984. (англ.)
↑ Zhu, Xizhou (2018). Deformable ConvNets v2: More Deformable, Better Results. arXiv:1811.11168 [cs.CV]. (англ.)
↑ Dai, Jifeng (2017). Deformable Convolutional Networks. arXiv:1703.06211 [cs.CV]. (англ.)

Object Class Detection. Vision.eecs.ucf.edu. Архів оригіналу за 14 липня 2013. Процитовано 9 жовтня 2013. (англ.)
ETHZ – Computer Vision Lab: Publications. Vision.ee.ethz.ch. Архів оригіналу за 3 червня 2013. Процитовано 9 жовтня 2013. (англ.)

Посилання

Multiple object class detection (англ.)
Spatio-temporal action localization (англ.)
Video object detection and co-segmentation (англ.)

[1] Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224. (англ.)

[GuanHe2012-2] Ling Guan; Yifeng He; Sun-Yuan Kung (1 березня 2012). Multimedia Image and Video Processing. CRC Press. с. 331–. ISBN 978-1-4398-3087-1. (англ.)

[3] Alsanabani, Ala; Ahmed, Mohammed; AL Smadi, Ahmad (2020). Vehicle Counting Using Detecting-Tracking Combinations: A Comparative Analysis. 2020 the 4th International Conference on Video and Image Processing. с. 48—54. doi:10.1145/3447450.3447458. ISBN 9781450389075. S2CID 233194604. (англ.)

[4] Wu, Jianxin, et al. "A scalable approach to activity recognition based on object use." 2007 IEEE 11th international conference on computer vision. IEEE, 2007. (англ.)

[yolov4-5] а ^б Bochkovskiy, Alexey (2020). Yolov4: Optimal Speed and Accuracy of Object Detection. arXiv:2004.10934 [cs.CV]. (англ.)

[6] Dalal, Navneet (2005). Histograms of oriented gradients for human detection (PDF). Computer Vision and Pattern Recognition. 1. (англ.)

[7] Ross, Girshick (2014). Rich feature hierarchies for accurate object detection and semantic segmentation (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. IEEE. с. 580—587. arXiv:1311.2524. doi:10.1109/CVPR.2014.81. ISBN 978-1-4799-5118-5. S2CID 215827080. (англ.)

[8] Girschick, Ross (2015). Fast R-CNN (PDF). Proceedings of the IEEE International Conference on Computer Vision. с. 1440—1448. arXiv:1504.08083. Bibcode:2015arXiv150408083G. (англ.)

[9] Shaoqing, Ren (2015). Faster R-CNN. Advances in Neural Information Processing Systems. arXiv:1506.01497. (англ.)

[Pang_Chen_Shi_Feng_2019-10] а ^б Pang, Jiangmiao; Chen, Kai; Shi, Jianping; Feng, Huajun; Ouyang, Wanli; Lin, Dahua (4 квітня 2019). Libra R-CNN: Towards Balanced Learning for Object Detection. arXiv:1904.02701v1 [cs.CV]. (англ.)

[11] Liu, Wei (October 2016). SSD: Single shot multibox detector. Computer Vision – ECCV 2016. Lecture Notes in Computer Science. Т. 9905. с. 21—37. arXiv:1512.02325. doi:10.1007/978-3-319-46448-0_2. ISBN 978-3-319-46447-3. S2CID 2141740. {{cite book}}: Проігноровано |journal= (довідка) (англ.)

[12] Redmon, Joseph (2016). You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. arXiv:1506.02640. Bibcode:2015arXiv150602640R. (англ.)

[13] Redmon, Joseph (2017). YOLO9000: better, faster, stronger. arXiv:1612.08242 [cs.CV]. (англ.)

[14] Redmon, Joseph (2018). Yolov3: An incremental improvement. arXiv:1804.02767 [cs.CV]. (англ.)

[15] Wang, Chien-Yao (2021). Scaled-YOLOv4: Scaling Cross Stage Partial Network. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). arXiv:2011.08036. Bibcode:2020arXiv201108036W. (англ.)

[16] Zhang, Shifeng (2018). Single-Shot Refinement Neural Network for Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. с. 4203—4212. arXiv:1711.06897. Bibcode:2017arXiv171106897Z. (англ.)

[17] Lin, Tsung-Yi (2020). Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (2): 318—327. arXiv:1708.02002. Bibcode:2017arXiv170802002L. doi:10.1109/TPAMI.2018.2858826. PMID 30040631. S2CID 47252984. (англ.)

[18] Zhu, Xizhou (2018). Deformable ConvNets v2: More Deformable, Better Results. arXiv:1811.11168 [cs.CV]. (англ.)

[19] Dai, Jifeng (2017). Deformable Convolutional Networks. arXiv:1703.06211 [cs.CV]. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]