Список наборів даних для досліджень з машинного навчання: відмінності між версіями

сторінка-список у проекті Вікімедіа
[перевірена версія][очікує на перевірку]
(Виправлено джерел: 22; позначено як недійсні: 0.) #IABot (v2.0.8.6)
 
(Не показано 82 проміжні версії 15 користувачів)
Рядок 1: Рядок 1:
'''[[Набір даних|Набори даних]]''' використовуються для дослідження [[:en:Machine_learning|машинного навчання]], посилання на них використовуються в [[Рецензування|наукових академічних статтях]]. Набори даних є невід’ємною частиною галузі машинного навчання. Значні досягнення в цій галузі можуть бути результатом прогресу в [[Алгоритм|алгоритмах]] навчання (наприклад, [[Глибинне навчання|deep learning)]], комп'ютерного обладнання та, що не так очевидно, доступності високоякісних наборів навчальних даних.<ref>{{Cite web|title=Edge.org|url=https://www.edge.org/response-detail/26587|website=www.edge.org|accessdate=2022-05-24}}</ref> Високоякісні марковані навчальні набори даних для алгоритмів машинного [[навчання з учителем]] і [[напівавтоматичне навчання]] зазвичай важко та дорого створити через велику кількість часу, необхідного для позначення даних. Хоча їх не потрібно позначати, високоякісні набори даних для [[Навчання без учителя|напівавтоматичного навчання]] також може бути складним і дорогим у створенні. Набори даних орієнтовані, здебільшого, на вирішення задач класифікації та розпізнавання і містять оцифровані зображення, відео, тексти, сигнали, звуки тощо.<ref>{{Cite news|title=Learning When Training Data are Costly: The Effect of Class Distribution on Tree Induction|url=https://jair.org/index.php/jair/article/view/10346|work=Journal of Artificial Intelligence Research|date=2003-10-01|accessdate=2022-05-24|issn=1076-9757|doi=10.1613/jair.1199|pages=315–354|volume=19|language=en|first=G. M.|last=Weiss|first2=F.|last2=Provost}}</ref><ref>{{Cite news|title=Types of Cost in Inductive Concept Learning|url=http://arxiv.org/abs/cs/0212034|work=arXiv:cs/0212034|date=2002-12-11|accessdate=2022-05-24|first=Peter D.|last=Turney}}</ref><ref>{{Cite news|title=Types of Cost in Inductive Concept Learning|url=http://arxiv.org/abs/cs/0212034|work=arXiv:cs/0212034|date=2002-12-11|accessdate=2022-05-25|first=Peter D.|last=Turney}}</ref><ref>{{Cite news|title=Active Learning with Evolving Streaming Data|url=https://doi.org/10.1007%2F978-3-642-23808-6_39|publisher=Springer|work=Machine Learning and Knowledge Discovery in Databases|date=2011|accessdate=2022-05-24|isbn=978-3-642-23808-6|doi=10.1007/978-3-642-23808-6_39|pages=597–612|language=en|first=Indrė|last=Žliobaitė|first2=Albert|last2=Bifet|first3=Bernhard|last3=Pfahringer|first4=Geoff|last4=Holmes|editor-first=Dimitrios|editor-last=Gunopulos}}</ref>
{{Перекласти|en|List of datasets for machine learning research|дата=травень 2017}}
{{Сирий переклад|дата=червень 2017}}


== Данні зображення ==
'''[[Набір даних|Набори даних]]''' використовується для досліджень в області [[Машинне навчання|машинного навчання]], посилання на них використовуються в наукових академічних статтях. Набори даних орієнтовані, здебільшого, на вирішення задач класифікації та розпізнавання і містять оцифровані зображення, відео, тексти, сигнали, звуки тощо.
Ці набори даних складаються переважно із зображень або відео використовуються для таких завдань, як [[:en:Object_detection|виявлення об’єктів]], [[Система розпізнавання облич|розпізнавання обличчя]] та [[:en:Multi-label_classification|класифікація за кількома мітками]].

== Зображення ==


=== Розпізнавання осіб ===
=== Розпізнавання осіб ===
Лицьові зображення широко використовуються для розробки систем машинного зору та розпізнавання осіб та пов'язаних з класифікацією зображень задачах.
У [[Комп'ютерний зір|комп’ютерному баченні]] зображення облич широко використовуються для розробки систем [[Система розпізнавання облич|які розпізнають  обличя]], [[Виявлення обличчя|займаються обнаруженням обляч]] та багатьох інших проектів.
{| class="wikitable sortable" style="width: 100%"
{| class="wikitable sortable" style="width: 100%"
! scope="col" style="width: 15%;" | Назва
! scope="col" style="width: 15%;" | Назва
Рядок 15: Рядок 13:
! scope="col" style="width: 7%;" | Формат
! scope="col" style="width: 7%;" | Формат
! scope="col" style="width: 7%;" | Задачі
! scope="col" style="width: 7%;" | Задачі
! scope="col" style="width: 6%;" | Створений
! scope="col" style="width: 6%;" | Створення
! scope="col" style="width: 6%;" | Посилання
! scope="col" style="width: 6%;" | Посилання
! scope="col" style="width: 11%;" | Джерело
! scope="col" style="width: 11%;" | Джерело
|-
|-
|Aff-Wild
|[[FERET (facial recognition technology)|Face Recognition Technology (FERET)]]
|298 відео з 200 особами, ~1 250 000 анотованих вручну зображень: анотовані з точки зору афекту розмірів (валентність-збудження); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 640x360)
|11338 images of 1199 individuals in different positions and at different times.
|виявлені обличчя, орієнтири обличчя та анотації валентно-збудження
|None.
|Приблизно 1 250 000 зображень з анотаціями вручну
|відео (візуальні + аудіомодальності)
|розпізнавання афекту (оцінка валентності-збудження)
|2017
|CVPR<ref>{{Cite news|title=Aff-Wild: Valence and Arousal ‘In-the-Wild’ Challenge|url=https://ieeexplore.ieee.org/document/8014982|work=2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW)|date=2017-07|accessdate=2022-05-25|doi=10.1109/CVPRW.2017.248|pages=1980–1987|first=Stefanos|last=Zafeiriou|first2=Dimitrios|last2=Kollias|first3=Mihalis A.|last3=Nicolaou|first4=Athanasios|last4=Papaioannou|first5=Guoying|last5=Zhao|first6=Irene|last6=Kotsia}}</ref>
IJCV<ref>{{Cite news|title=Deep Affect Prediction in-the-Wild: Aff-Wild Database and Challenge, Deep Architectures, and Beyond|url=https://doi.org/10.1007/s11263-019-01158-4|work=International Journal of Computer Vision|date=2019-06-01|accessdate=2022-05-25|issn=1573-1405|doi=10.1007/s11263-019-01158-4|pages=907–929|volume=127|issue=6|language=en|first=Dimitrios|last=Kollias|first2=Panagiotis|last2=Tzirakis|first3=Mihalis A.|last3=Nicolaou|first4=Athanasios|last4=Papaioannou|first5=Guoying|last5=Zhao|first6=Björn|last6=Schuller|first7=Irene|last7=Kotsia|first8=Stefanos|last8=Zafeiriou}}</ref>
|
{| class="wikitable sortable"
|}
D.Kollias et al.
|-
|Aff-Wild2
|558 відео з 458 особами, ~2 800 000 зображень, анотованих вручну: анотовані за і) категоричним афектом (7 основних виразів: нейтральний, щастя, смуток, здивування, страх, огида, гнів); ii) вимірний афект (валентність-збудження); iii) одиниці дії (AUs 1,2,4,6,12,15,20,25); обстановка в дикій природі; база кольорів; різні дозволи (середнє = 1030x630)
|виявлені обличчя, виявлені та вирівняні обличчя та анотації
|Приблизно 2 800 000 зображень з анотаціями вручну
|відео (візуальні + аудіомодальності)
|розпізнавання афекту (оцінка валентності-збудження, базова класифікація виразів, виявлення одиниць дії)
|2019
|BMVC<ref>{{Cite news|title=Expression, Affect, Action Unit Recognition: Aff-Wild2, Multi-Task Learning and ArcFace|url=http://arxiv.org/abs/1910.04855|work=arXiv:1910.04855 [cs, eess]|date=2019-09-25|accessdate=2022-05-25|first=Dimitrios|last=Kollias|first2=Stefanos|last2=Zafeiriou}}</ref>
FG<ref>{{Cite news|title=Analysing Affective Behavior in the First ABAW 2020 Competition|url=https://www.semanticscholar.org/paper/Analysing-Affective-Behavior-in-the-First-ABAW-2020-Kollias-Schulc/55805853ca9fbc49f1af248106d173a6ffb1b9ee|work=2020 15th IEEE International Conference on Automatic Face and Gesture Recognition (FG 2020)|date=2020|accessdate=2022-05-25|doi=10.1109/FG47880.2020.00126|first=D.|last=Kollias|first2=Attila|last2=Schulc|first3=Elnar|last3=Hajiyev|first4=S.|last4=Zafeiriou}}</ref>
|D.Kollias et al.
|-
|[[:en:FERET_(facial_recognition_technology)|Face Recognition Technology (FERET)]]
|11338 зображень 1199 осіб у різних позиціях і в різний час.
|Немає.
|11,338
|11,338
|Зображення
|Images
|Класифікація, розпізнавання обличчя
|Classification, face recognition
|2003
|2003
|<ref name=":4">Phillips, P. Jonathon, et al. "The FERET database and evaluation procedure for face-recognition algorithms." ''Image and vision computing'' 16.5 (1998): 295-306.</ref><ref>Wiskott, Laurenz, et al. "Face recognition by elastic bunch graph matching."''Pattern Analysis and Machine Intelligence, IEEE Transactions on'' 19.7 (1997): 775-779.</ref>
|<ref>Wiskott, Laurenz, et al. "Face recognition by elastic bunch graph matching."''Pattern Analysis and Machine Intelligence, IEEE Transactions on'' 19.7 (1997): 775-779.</ref><ref>{{Cite news|title=Face recognition by elastic bunch graph matching|url=https://ieeexplore.ieee.org/document/598235/|work=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=1997-07|accessdate=2022-05-27|issn=1939-3539|doi=10.1109/34.598235|pages=775–779|volume=19|issue=7|first=L.|last=Wiskott|first2=Norbert|last2=Krüger|first3=N.|last3=Kuiger|first4=C.|last4=von der Malsburg}}</ref>
|[[United States Department of Defense]]
|[[United States Department of Defense]]

|-
|-
|Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)
|CMU Pose, Illumination, and Expression (PIE)
|7356 відео та аудіозаписів 24 професійних акторів. По 8 емоцій у двох інтенсивності.
|41,368 color images of 68 people in 13 different poses.
|Файли, позначені виразом. Оцінки перевірки сприйняття надані 319 оцінювачами.
|Images labeled with expressions.
|41,368
|7,356
|Відео, звукові файли
|Images, text
|Класифікація, розпізнавання обличчя, розпізнавання голосу
|Classification, face recognition
|2018
|2000
|<ref>{{Cite news|title=The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English|url=https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0196391|work=PLOS ONE|date=16 трав. 2018 р.|accessdate=2022-05-28|issn=1932-6203|pmc=PMC5955500|pmid=29768426|doi=10.1371/journal.pone.0196391|pages=e0196391|volume=13|issue=5|language=en|first=Steven R.|last=Livingstone|first2=Frank A.|last2=Russo}}</ref><ref>{{Citation|title=The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS)|url=https://zenodo.org/record/1188976|publisher=Zenodo|date=2018-04-05|accessdate=2022-05-28|doi=10.5281/zenodo.1188976|first=Steven R.|last=Livingstone|first2=Frank A.|last2=Russo}}</ref>
|<ref>Sim, Terence, Simon Baker, and Maan Bsat. "The CMU pose, illumination, and expression (PIE) database." ''Automatic Face and Gesture Recognition, 2002. Proceedings. Fifth IEEE International Conference on''. IEEE, 2002.</ref><ref>Schroff, Florian, et al. "Pose, illumination and expression invariant pairwise face-similarity measure via doppelgänger list comparison."''Computer Vision (ICCV), 2011 IEEE International Conference on''. IEEE, 2011.</ref>
|R. Gross et al.
|S.R. Livingstone and F.A. Russo
|-
|-
|SCFace
|SCFace
|Кольорові зображення облич під різними кутами.
|Color images of faces at various angles.
|Розташування виділених рис обличчя. Наведені координати об’єктів.
|Location of facial features extracted. Coordinates of features given.
|4,160
|4,160
|Зображення, текст
|Images, text
|Класифікація, розпізнавання обличчя
|[[Statistical classification|Classification]], face recognition
|2011
|2011
|<ref name=":0">Grgic, Mislav, Kresimir Delac, and Sonja Grgic. "SCface–surveillance cameras face database." ''Multimedia tools and applications'' 51.3 (2011): 863-879.</ref><ref>Wallace, Roy, et al. "Inter-session variability modelling and joint factor analysis for face authentication." ''Biometrics (IJCB), 2011 International Joint Conference on''. IEEE, 2011.</ref>
|<ref name=":0">Grgic, Mislav, Kresimir Delac, and Sonja Grgic. "SCface–surveillance cameras face database." ''Multimedia tools and applications'' 51.3 (2011): 863-879.</ref><ref>Wallace, Roy, et al. "Inter-session variability modelling and joint factor analysis for face authentication." ''Biometrics (IJCB), 2011 International Joint Conference on''. IEEE, 2011.</ref>
|M. Grgic et al.
|M. Grgic et al.
|-
|YouTube Faces DB
|Videos of 1,595 different people gathered from YouTube. Each clip is between 48 and 6,070 frames.
|Identity of those appearing in videos and descriptors.
|3,425 videos
|Video, text
|Video classification, face recognition
|2011
|<ref>Schroff, Florian, Dmitry Kalenichenko, and James Philbin. "Facenet: A unified embedding for face recognition and clustering." ''Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition''. 2015.</ref><ref>Wolf, Lior, Tal Hassner, and Itay Maoz. "Face recognition in unconstrained videos with matched background similarity." ''Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on''. IEEE, 2011.</ref>
|L. Wolf et al.
|-
|300 videos in-the-Wild
|114 videos annotated for facial landmark tracking. The 68 landmark mark-up is applied to every frame.
|None
|114 videos, 218,000 frames.
|Video, annotation file.
|Facial landmark tracking.
|2015
|<ref>Shen, Jie, et al. "The first facial landmark tracking in-the-wild challenge: Benchmark and results." 2015 IEEE International Conference on Computer Vision Workshop (ICCVW). IEEE, 2015.</ref>
|Shen, Jie et al.
|-
|Grammatical Facial Expressions Dataset
|Grammatical Facial Expressions from Brazilian Sign Language.
|Microsoft Kinect features extracted.
|27,965
|Text
|Facial gesture recognition
|2014
|<ref>de Almeida Freitas, Fernando, et al. "Grammatical Facial Expressions Recognition with Machine Learning." ''FLAIRS Conference''. 2014.</ref>
|F. Freitas et al.
|-
|CMU Face Images Dataset
|Images of faces. Each person is photographed multiple times to capture different expressions.
|Labels and features.
|640
|Images, Text
|Face recognition
|1999
|<ref>Mitchell, Tom M. "Machine learning. WCB." (1997).</ref><ref>Xiaofeng He and Partha Niyogi. Locality Preserving Projections. NIPS. 2003.</ref>
|T. Mitchell
|-
|-
|Yale Face Database
|Yale Face Database
|Обличчя 15 осіб у 11 різних виразах.
|Faces of 15 individuals in 11 different expressions.
|Мітки виразів.
|Labels of expressions.
|165
|165
|Зображення
|Images
|Розпізнавання обличчя
|Face recognition
|1997
|1997
|<ref>Georghiades, A. "Yale face database." ''Center for computational Vision and Control at Yale University, <nowiki>http://cvc</nowiki>. yale. edu/projects/yalefaces/yalefa'' 2 (1997).</ref><ref>Nguyen, Duy, et al. "Real-time face detection and lip feature extraction using field-programmable gate arrays." ''Systems, Man, and Cybernetics, Part B: Cybernetics, IEEE Transactions on'' 36.4 (2006): 902-912.</ref>
|<ref>{{Cite news|url=http://cvc.yale.edu/Projects/Yalefaces/Yalefa|title=Georghiades, A. "Yale face database". Center For Computational Vision And Control At Yale University,}}</ref><ref>{{Cite news|title=Real-time face detection and lip feature extraction using field-programmable gate arrays|url=https://ieeexplore.ieee.org/document/1658301/|work=IEEE Transactions on Systems, Man, and Cybernetics, Part B (Cybernetics)|date=2006-08|accessdate=2022-05-28|issn=1941-0492|doi=10.1109/TSMCB.2005.862728|pages=902–912|volume=36|issue=4|first=D.|last=Nguyen|first2=D.|last2=Halupka|first3=P.|last3=Aarabi|first4=A.|last4=Sheikholeslami}}</ref>
|J. Yang et al.
|J. Yang et al.
|-
|-
|Cohn-Kanade AU-Coded Expression Database
|Cohn-Kanade AU-Coded Expression Database
|Велика база даних зображень з мітками для виразів.
|Large database of images with labels for expressions.
|Відстеження певних рис обличчя.
|Tracking of certain facial features.
|500+ послідовностей
|500+ sequences
|Зображення, текст
|Images, text
|Аналіз виразу обличчя
|Facial expression analysis
|2000
|2000
|<ref>Kanade, Takeo, Jeffrey F. Cohn, and Yingli Tian. "Comprehensive database for facial expression analysis." ''Automatic Face and Gesture Recognition, 2000. Proceedings. Fourth IEEE International Conference on''. IEEE, 2000.</ref><ref>Zeng, Zhihong, et al. "A survey of affect recognition methods: Audio, visual, and spontaneous expressions." ''Pattern Analysis and Machine Intelligence, IEEE Transactions on'' 31.1 (2009): 39-58.</ref>
|<ref>{{Cite news|title=Comprehensive database for facial expression analysis|url=http://dx.doi.org/10.1109/afgr.2000.840611|publisher=IEEE Comput. Soc|work=Proceedings Fourth IEEE International Conference on Automatic Face and Gesture Recognition (Cat. No. PR00580)|accessdate=2022-05-28|doi=10.1109/afgr.2000.840611|first=T.|last=Kanade|first2=J.F.|last2=Cohn|last3=Yingli Tian}}</ref><ref>{{Cite news|title=A Survey of Affect Recognition Methods: Audio, Visual, and Spontaneous Expressions|url=https://ieeexplore.ieee.org/document/4468714/|work=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2009-01|accessdate=2022-05-28|issn=1939-3539|doi=10.1109/TPAMI.2008.52|pages=39–58|volume=31|issue=1|first=Zhihong|last=Zeng|first2=Maja|last2=Pantic|first3=Glenn I.|last3=Roisman|first4=Thomas S.|last4=Huang}}</ref>
|
|T. Kanade et al.
{| class="wikitable sortable"
|}
T. Kanade et al.
|-
|JAFFE Facial Expression Database
|213 зображень із 7 виразами обличчя (6 основних виразів обличчя + 1 нейтральний), створених 10 японськими моделями.
|Зображення обрізаються до області обличчя. Включає дані семантичних оцінок на етикетках емоцій.
|213
|Зображення, текст
|Розпізнавання виразу обличчя
|1998
|<ref>{{Citation|title=The Japanese Female Facial Expression (JAFFE) Dataset|url=https://zenodo.org/record/3451524|publisher=Zenodo|date=1998-04-14|accessdate=2022-05-28|doi=10.5281/zenodo.3451524|first=Michael|last=Lyons|first2=Miyuki|last2=Kamachi|first3=Jiro|last3=Gyoba}}</ref><ref>{{Cite news|title=Coding facial expressions with Gabor wavelets|url=http://dx.doi.org/10.1109/afgr.1998.670949|publisher=IEEE Comput. Soc|work=Proceedings Third IEEE International Conference on Automatic Face and Gesture Recognition|accessdate=2022-05-28|doi=10.1109/afgr.1998.670949|first=M.|last=Lyons|first2=S.|last2=Akamatsu|first3=M.|last3=Kamachi|first4=J.|last4=Gyoba}}</ref>
|Lyons, Kamachi, Gyoba
|-
|-
|FaceScrub
|FaceScrub
|Зображення публічних діячів, видалені з пошуку зображень.
|Images of public figures scrubbed from image searching.
|Назва та м/ж анотація.
|Name and m/f annotation.
|107,818
|107,818
|Зображення, текст
|Images, text
|Розпізнавання обличчя
|Face recognition
|2014
|2014
|<ref>Ng, Hong-Wei, and Stefan Winkler. "A data-driven approach to cleaning large face datasets." ''Image Processing (ICIP), 2014 IEEE International Conference on''. IEEE, 2014.</ref><ref>{{cite arXiv |eprint=1506.01342|last1=RoyChowdhury|first1=Aruni|title=One-to-many face recognition with bilinear CNNs|last2=Lin|first2=Tsung-Yu|last3=Maji|first3=Subhransu|last4=Learned-Miller|first4=Erik|class=cs.CV|year=2015}}</ref>
|<ref>{{Cite news|title=A data-driven approach to cleaning large face datasets|url=http://dx.doi.org/10.1109/icip.2014.7025068|publisher=IEEE|work=2014 IEEE International Conference on Image Processing (ICIP)|date=2014-10|accessdate=2022-05-28|doi=10.1109/icip.2014.7025068|first=Hong-Wei|last=Ng|first2=Stefan|last2=Winkler}}</ref><ref>{{Cite news|title=One-to-many face recognition with bilinear CNNs|url=http://arxiv.org/abs/1506.01342|work=arXiv:1506.01342 [cs]|date=2016-03-28|accessdate=2022-05-28|first=Aruni|last=RoyChowdhury|first2=Tsung-Yu|last2=Lin|first3=Subhransu|last3=Maji|first4=Erik|last4=Learned-Miller}}</ref>
|H. Ng et al.
|H. Ng et al.
|-
|-
|BioID Face Database
|BioID Face Database
|Зображення облич із позначеними положеннями очей.
|Images of faces with eye positions marked.
|Встановіть положення очей вручну.
|Manually set eye positions.
|1521
|1521
|Зображення, текст
|Images, text
|Розпізнавання обличчя
|Face recognition
|2001
|2001
|<ref>{{Cite book
|<ref>Jesorsky, Oliver, Klaus J. Kirchberg, and Robert W. Frischholz. "Robust face detection using the hausdorff distance." ''Audio-and video-based biometric person authentication''. Springer Berlin Heidelberg, 2001.</ref><ref>Huang, Gary B., et al. ''Labeled faces in the wild: A database for studying face recognition in unconstrained environments''. Vol. 1. No. 2. Technical Report 07-49, University of Massachusetts, Amherst, 2007.</ref>
|url=http://dx.doi.org/10.1007/3-540-45344-x_14
|title=Robust Face Detection Using the Hausdorff Distance
|last=Jesorsky
|first=Oliver
|last2=Kirchberg
|first2=Klaus J.
|last3=Frischholz
|first3=Robert W.
|date=2001
|series=Lecture Notes in Computer Science
|publisher=Springer Berlin Heidelberg
|location=Berlin, Heidelberg
|pages=90–95
|isbn=978-3-540-42216-7
}}</ref><ref>{{Cite news|title=Quality labeled faces in the wild (QLFW): a database for studying face recognition in real-world environments|url=http://dx.doi.org/10.1117/12.2080393|publisher=SPIE|work=Human Vision and Electronic Imaging XX|date=2015-03-17|accessdate=2022-05-28|doi=10.1117/12.2080393|first=Lina J.|last=Karam|first2=Tong|last2=Zhu}}</ref>
|BioID
|BioID
|-
|-
|Skin Segmentation Dataset
|Skin Segmentation Dataset
|Довільно відібрані значення кольорів із зображень облич.
|Randomly sampled color values from face images.
|B, G, R, values extracted.
|B, G, R, значення витягнуті.
|245,057
|245,057
|Текст
|Text
|Сегментація, класифікація
|Segmentation, classification
|2012
|2012
|<ref>{{Cite news|title=Efficient Skin Region Segmentation Using Low Complexity Fuzzy Decision Tree Model|url=http://dx.doi.org/10.1109/indcon.2009.5409447|publisher=IEEE|work=2009 Annual IEEE India Conference|date=2009|accessdate=2022-05-28|doi=10.1109/indcon.2009.5409447|first=Rajen B.|last=Bhatt|first2=Gaurav|last2=Sharma|first3=Abhinav|last3=Dhall|first4=Santanu|last4=Chaudhury}}</ref><ref>{{Cite news|title=Fuzzy logic color detection: Blue areas in melanoma dermoscopy images|url=https://www.sciencedirect.com/science/article/pii/S0895611114000391|work=Computerized Medical Imaging and Graphics|date=2014-07-01|accessdate=2022-05-28|issn=0895-6111|pmc=PMC4287461|pmid=24786720|doi=10.1016/j.compmedimag.2014.03.007|pages=403–410|volume=38|issue=5|language=en|first=Mounika|last=Lingala|first2=R.|last2=Joe Stanley|first3=Ryan K.|last3=Rader|first4=Jason|last4=Hagerty|first5=Harold S.|last5=Rabinovitz|first6=Margaret|last6=Oliviero|first7=Iqra|last7=Choudhry|first8=William V.|last8=Stoecker}}</ref>
|<ref>Bhatt, Rajen B., et al. "Efficient skin region segmentation using low complexity fuzzy decision tree model." ''India Conference (INDICON), 2009 Annual IEEE''. IEEE, 2009.</ref><ref>Lingala, Mounika, et al. "Fuzzy logic color detection: Blue areas in melanoma dermoscopy images." ''Computerized Medical Imaging and Graphics'' 38.5 (2014): 403-410.</ref>
|R. Bhatt.
|R. Bhatt.
|-
|-
|Bosphorus
|Bosphorus
|База даних 3D зображень обличчя.
|3D Face image database.
|34 одиниці дії та 6 виразів, позначених; Позначено 24 орієнтири на обличчі.
|34 action units and 6 expressions labeled; 24 facial landmarks labeled.
|4652
|4652
|Зображення, текст
|
|Розпізнавання облич, класифікація
Images, text

|Face recognition, classification
|2008
|2008
|<ref>Maes, Chris, et al. "Feature detection on 3D face surfaces for pose normalisation and recognition." ''Biometrics: Theory Applications and Systems (BTAS), 2010 Fourth IEEE International Conference on''. IEEE, 2010.</ref><ref>Savran, Arman, et al. "Bosphorus database for 3D face analysis." ''Biometrics and Identity Management''. Springer Berlin Heidelberg, 2008. 47-56.</ref>
|<ref>{{Cite news|title=Feature detection on 3D face surfaces for pose normalisation and recognition|url=http://dx.doi.org/10.1109/btas.2010.5634543|publisher=IEEE|work=2010 Fourth IEEE International Conference on Biometrics: Theory, Applications and Systems (BTAS)|date=2010-09|accessdate=2022-05-28|doi=10.1109/btas.2010.5634543|first=Chris|last=Maes|first2=Thomas|last2=Fabry|first3=Johannes|last3=Keustermans|first4=Dirk|last4=Smeets|first5=Paul|last5=Suetens|first6=Dirk|last6=Vandermeulen}}</ref><ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-3-540-89991-4_6
|title=Bosphorus Database for 3D Face Analysis
|last=Savran
|first=Arman
|last2=Alyüz
|first2=Neşe
|last3=Dibeklioğlu
|first3=Hamdi
|last4=Çeliktutan
|first4=Oya
|last5=Gökberk
|first5=Berk
|last6=Sankur
|first6=Bülent
|last7=Akarun
|first7=Lale
|date=2008
|series=Lecture Notes in Computer Science
|publisher=Springer Berlin Heidelberg
|location=Berlin, Heidelberg
|pages=47–56
|isbn=978-3-540-89990-7
}}</ref>
|A Savran et al.
|A Savran et al.
|-
|-
|UOY 3D-Face
|UOY 3D-Face
|нейтральне обличчя, 5 виразів: гнів, щастя, смуток, очі закриті, брови підняті.
|neutral face, 5 expressions: anger, happiness, sadness, eyes closed, eyebrows raised.
|маркування.
|labeling.
|5250
|5250
|Зображення, текст
|
|Розпізнавання облич, класифікація
Images, text

|Face recognition, classification
|2004
|2004
|<ref>Heseltine, Thomas, Nick Pears, and Jim Austin. "Three-dimensional face recognition: An eigensurface approach." ''Image Processing, 2004. ICIP'04. 2004 International Conference on''. Vol. 2. IEEE, 2004.</ref><ref>Ge, Yun, et al. "3D Novel Face Sample Modeling for Face Recognition."''Journal of Multimedia'' 6.5 (2011): 467-475.</ref>
|<ref>{{Cite news|title=Three-dimensional face recognition: an eigensurface approach|url=http://dx.doi.org/10.1109/icip.2004.1419769|publisher=IEEE|work=2004 International Conference on Image Processing, 2004. ICIP '04.|accessdate=2022-05-28|doi=10.1109/icip.2004.1419769|first=T.|last=Heseltine|first2=N.|last2=Pears|first3=J.|last3=Austin}}</ref><ref>{{Cite web|url=http://ojs.academypublisher.com/index.php/jmm/article/view/5553|website=ojs.academypublisher.com|accessdate=2022-05-28|doi=10.4304/jmm.6.5.467-475|title=Ge, Yun; et al. (2011). "3D Novel Face Sample Modeling for Face Recognition". Journal of Multimedia.}}</ref>
|[[University of York]]
|[[:en:University_of_York|University of York]]
|-
|-
|CASIA
|CASIA
|Вирази: гнів, посмішка, сміх, здивування, закриті очі.
|Expressions: Anger, smile, laugh, surprise, closed eyes.
|Немає.
|None.
|4624
|4624
|
|
Зображення, текст
Images, text


|Розпізнавання облич, класифікація
|Face recognition, classification
|2007
|2007
|<ref>Wang, Yueming, Jianzhuang Liu, and Xiaoou Tang. "Robust 3D face recognition by local shape difference boosting." ''Pattern Analysis and Machine Intelligence, IEEE Transactions on'' 32.10 (2010): 1858–1870.</ref><ref>Zhong, Cheng, Zhenan Sun, and Tieniu Tan. "Robust 3D face recognition using learned visual codebook." ''Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on''. IEEE, 2007.</ref>
|<ref>Wang, Yueming, Jianzhuang Liu, and Xiaoou Tang. "Robust 3D face recognition by local shape difference boosting." ''Pattern Analysis and Machine Intelligence, IEEE Transactions on'' 32.10 (2010): 1858–1870.</ref><ref>Zhong, Cheng, Zhenan Sun, and Tieniu Tan. "Robust 3D face recognition using learned visual codebook." ''Computer Vision and Pattern Recognition, 2007. CVPR'07. IEEE Conference on''. IEEE, 2007.</ref>
|[[Institute of Automation, Chinese Academy of Sciences]]
|[[:en:University_of_York|Institute of Automation, Chinese Academy of Sciences]]
|-
|-
|CASIA
|CASIA
|Вирази: Злість, Відраза, Страх, Щастя, Смуток, Подив.
|Expressions: Anger Disgust Fear Happiness Sadness Surprise
|Немає.
|None.
|480
|480
|Відео з анотованим видимим спектром і ближнім інфрачервоним випромінюванням знімає зі швидкістю 25 кадрів в секунду
|Annotated Visible Spectrum and Near Infrared Video captures at 25 frames per second
|Розпізнавання облич, класифікація
|Face recognition, classification
|2011
|2011
|<ref>Zhao, G., Huang, X., Taini, M., Li, S. Z., & Pietikäinen, M. (2011). Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9), 607-619.</ref>
|<ref>Zhao, G., Huang, X., Taini, M., Li, S. Z., & Pietikäinen, M. (2011). Facial expression recognition from near-infrared videos. Image and Vision Computing, 29(9), 607-619.</ref>
Рядок 186: Рядок 217:
|-
|-
|BU-3DFE
|BU-3DFE
|нейтральне обличчя і 6 виразів: гнів, щастя, смуток, здивування, огида, страх (4 рівні). Вилучено 3D-зображення.
|neutral face, and 6 expressions: anger, happiness, sadness, surprise, disgust, fear (4 levels). 3D images extracted.
|Немає.
|None.
|2500
|2500
|Зображення, текст
|Images, text
|Розпізнавання виразу обличчя, класифікація
|Facial expression recognition, classification
|2006
|2006
|<ref>Soyel, Hamit, and Hasan Demirel. "Facial expression recognition using 3D facial feature distances." ''Image Analysis and Recognition''. Springer Berlin Heidelberg, 2007. 831-838.</ref>
|<ref>Soyel, Hamit, and Hasan Demirel. "Facial expression recognition using 3D facial feature distances." ''Image Analysis and Recognition''. Springer Berlin Heidelberg, 2007. 831-838.</ref>
|[[Binghamton University]]
|[[Бінгемтонський університет|Binghamton University]]
|-
|-
|[[Face Recognition Grand Challenge]] Dataset
|[[:en:Face_Recognition_Grand_Challenge|Face Recognition Grand Challenge]] Dataset
|До 22 зразків для кожного предмета. Вирази: гнів, щастя, смуток, здивування, огида, роздутий. 3D дані.
|Up to 22 samples for each subject. Expressions: anger, happiness, sadness, surprise, disgust, puffy. 3D Data.
|Немає.
|None.
|4007
|4007
|Зображення, текст
|Images, text
|Розпізнавання облич, класифікація
|Face recognition, classification
|2004
|2004
|<ref>Bowyer, Kevin W., Kyong Chang, and Patrick Flynn. "A survey of approaches and challenges in 3D and multi-modal 3D+ 2D face recognition." ''Computer vision and image understanding'' 101.1 (2006): 1-15.</ref><ref>Tan, Xiaoyang, and Bill Triggs. "Enhanced local texture feature sets for face recognition under difficult lighting conditions." ''Image Processing, IEEE Transactions on'' 19.6 (2010): 1635–1650.</ref>
|<ref>Bowyer, Kevin W., Kyong Chang, and Patrick Flynn. "A survey of approaches and challenges in 3D and multi-modal 3D+ 2D face recognition." ''Computer vision and image understanding'' 101.1 (2006): 1-15.</ref><ref>Tan, Xiaoyang, and Bill Triggs. "Enhanced local texture feature sets for face recognition under difficult lighting conditions." ''Image Processing, IEEE Transactions on'' 19.6 (2010): 1635–1650.</ref>
Рядок 206: Рядок 237:
|-
|-
|Gavabdb
|Gavabdb
|До 61 зразка для кожного предмета. Вирази обличчя нейтральні, посмішка, фронтальний акцентований сміх, фронтальний довільний жест. 3D зображення.
|Up to 61 samples for each subject. Expressions neutral face, smile, frontal accentuated laugh, frontal random gesture. 3D images.
|Немає.
|None.
|549
|549
|Зображення, текст
|Images, text
|Розпізнавання облич, класифікація
|Face recognition, classification
|2008
|2008
|<ref>Mousavi, Mir Hashem, Karim Faez, and Amin Asghari. "Three dimensional face recognition using SVM classifier." ''Computer and Information Science, 2008. ICIS 08. Seventh IEEE/ACIS International Conference on''. IEEE, 2008.</ref><ref>Amberg, Brian, Reinhard Knothe, and Thomas Vetter. "Expression invariant 3D face recognition with a morphable model." ''Automatic Face & Gesture Recognition, 2008. FG'08. 8th IEEE International Conference on''. IEEE, 2008.</ref>
|<ref>Mousavi, Mir Hashem, Karim Faez, and Amin Asghari. "Three dimensional face recognition using SVM classifier." ''Computer and Information Science, 2008. ICIS 08. Seventh IEEE/ACIS International Conference on''. IEEE, 2008.</ref><ref>Amberg, Brian, Reinhard Knothe, and Thomas Vetter. "Expression invariant 3D face recognition with a morphable model." ''Automatic Face & Gesture Recognition, 2008. FG'08. 8th IEEE International Conference on''. IEEE, 2008.</ref>
|[[King Juan Carlos University]]
|[[:en:King_Juan_Carlos_University|King Juan Carlos University]]
|-
|-
|3D-RMA
|3D-RMA
|До 100 предметів, вирази переважно нейтральні. Також кілька поз.
|Up to 100 subjects, expressions mostly neutral. Several poses as well.
|Немає.
|None.
|9971
|9971
|Зображення, текст
|Images, text
|Розпізнавання облич, класифікація
|Face recognition, classification
|2004
|2004
|<ref>İrfanoğlu, M. O., Berk Gökberk, and Lale Akarun. "3D shape-based face recognition using automatically registered facial surfaces." ''Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on''. Vol. 4. IEEE, 2004.</ref><ref>Beumier, Charles, and Marc Acheroy. "Face verification from 3D and grey level clues." ''Pattern recognition letters'' 22.12 (2001): 1321–1329.</ref>
|<ref>İrfanoğlu, M. O., Berk Gökberk, and Lale Akarun. "3D shape-based face recognition using automatically registered facial surfaces." ''Pattern Recognition, 2004. ICPR 2004. Proceedings of the 17th International Conference on''. Vol. 4. IEEE, 2004.</ref><ref>Beumier, Charles, and Marc Acheroy. "Face verification from 3D and grey level clues." ''Pattern recognition letters'' 22.12 (2001): 1321–1329.</ref>
|[[Royal Military Academy (Belgium)]]
|[[Королівська військова академія (Бельгія)|Royal Military Academy (Belgium)]]
|-
|SoF
|112 осіб (66 чоловіків і 46 жінок) носять окуляри за різних умов освітлення.
|Набір синтетичних фільтрів (розмиття, оклюзії, шуми та постеризація) різного рівня складності.
|42 592 (2 662 оригінальне зображення × 16 синтетичних зображень)
|Зображення, файл Mat
|Класифікація за статтю, розпізнавання облич, розпізнавання обличчя, оцінка віку та виявлення окулярів
|2017
|<ref>{{Cite web|title=Computer Science|url=https://arxiv.org/archive/cs.CV|website=arxiv.org|accessdate=2022-05-28}}</ref><ref>{{Cite web|title=SoF dataset|url=https://sites.google.com/view/sof-dataset|website=sites.google.com|accessdate=2022-05-28|language=uk}}</ref>
|Afifi, M. et al.
|-
|IMDB-WIKI
|IMDB і Вікіпедія зображення обличчя з мітками статі та віку.
|Немає
|523,051
|Зображення
|Гендерна класифікація, розпізнавання обличчя, розпізнавання обличчя, оцінка віку
|2015
|<ref>{{Cite web|title=IMDB-WIKI - 500k+ face images with age and gender labels|url=https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/|website=data.vision.ee.ethz.ch|accessdate=2022-05-28}}</ref>
|R. Rothe, R. Timofte, L. V. Gool
|}
|}

=== Розпізнавання дій ===
{| class="wikitable"
|+
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|TV Human Interaction Dataset
|Відео з 20 різних телевізійних шоу для прогнозування соціальних дій: рукостискання, п’ять, обійми, поцілунок.
|Немає.
|6,766 відеокліпів
|відеокліп
|Прогноз дії
|2013
|<ref>{{Cite news|title=Structured Learning of Human Interactions in TV Shows|url=https://ieeexplore.ieee.org/document/6133287/|work=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2012-12|accessdate=2022-05-20|issn=1939-3539|doi=10.1109/TPAMI.2012.24|pages=2441–2453|volume=34|issue=12|first=Alonso|last=Patron-Perez|first2=Marcin|last2=Marszalek|first3=Ian|last3=Reid|first4=Andrew|last4=Zisserman}}</ref>
|Patron-Perez, A. et al.
|-
|Berkeley Multimodal Human Action Database (MHAD)
|Записи однієї особи, яка виконує 12 дій
|Попередня обробка MoCap
|660 зразків дій
|8 Phase Space Motion Capture, 2 стереокамери, 4 чотирикамери, 6 акселерометрів, 4 мікрофони
|Класифікація дій
|2013
|<ref>{{Cite news|title=Berkeley MHAD: A comprehensive Multimodal Human Action Database|url=http://dx.doi.org/10.1109/wacv.2013.6474999|publisher=IEEE|work=2013 IEEE Workshop on Applications of Computer Vision (WACV)|date=2013-01|accessdate=2022-05-20|doi=10.1109/wacv.2013.6474999|first=Ferda|last=Ofli|first2=Rizwan|last2=Chaudhry|first3=Gregorij|last3=Kurillo|first4=Rene|last4=Vidal|first5=Ruzena|last5=Bajcsy}}</ref>
|Ofli, F. et al.
|-
|THUMOS Dataset
|Великий набір відео даних для класифікації дій
|Дії класифіковані та позначені.
|45 млн кадрів відео
|Відео, зображення, текст
|Класифікація, виявлення дії
|2013
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1142374420
|title=Pattern recognition : 5th Asian Conference, ACPR 2019, Auckland, New Zealand, November 26-29, 2019, Revised selected papers.
|last=N.Z.)
|first=Asian Conference on Pattern Recognition (5th : 2019 : Auckland,
|isbn=978-3-030-41299-9
|oclc=1142374420
}}</ref><ref>{{Cite news|title=Convolutional Two-Stream Network Fusion for Video Action Recognition|url=http://dx.doi.org/10.1109/cvpr.2016.213|publisher=IEEE|work=2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)|date=2016-06|accessdate=2022-05-28|doi=10.1109/cvpr.2016.213|first=Christoph|last=Feichtenhofer|first2=Axel|last2=Pinz|first3=Andrew|last3=Zisserman}}</ref>
|Y. Jiang et al.
|-
|MEXAction2
|Набір відеоданих для локалізації дії та виявлення
|Дії класифіковані та позначені.
|1000
|Відео
|Виявлення дії
|2014
|<ref>{{Cite book
|url=http://worldcat.org/oclc/953864701
|title=Face processing : advanced modeling and methods
|last=Rama.
|first=Zhao, Wenyi. Chellappa,
|isbn=978-0-08-048884-4
|oclc=953864701
}}</ref>
|Stoian et al.
|}




=== Виявлення та розпізнавання об'єктів ===
=== Виявлення та розпізнавання об'єктів ===
{| class="wikitable sortable" style="width: 100%"
{| class="wikitable sortable" style="width: 100%"
! scope="col" style="width: 15%;" |Dataset Name
! scope="col" style="width: 15%;" |Назва
! scope="col" style="width: 18%;" | Brief description
! scope="col" style="width: 18%;" | Опис
! scope="col" style="width: 18%;" | Preprocessing
! scope="col" style="width: 18%;" | Обробка
! scope="col" style="width: 6%;" | Instances
! scope="col" style="width: 6%;" | Розмыр
! scope="col" style="width: 7%;" | Format
! scope="col" style="width: 7%;" | Формат
! scope="col" style="width: 7%;" | Default Task
! scope="col" style="width: 7%;" | Задачи
! scope="col" style="width: 6%;" | Created (updated)
! scope="col" style="width: 6%;" | Створення
! scope="col" style="width: 6%;" | Reference
! scope="col" style="width: 6%;" | Посилання
! scope="col" style="width: 11%;" |Creator
! scope="col" style="width: 11%;" |Джерело
|-
|-
|Visual Genome
|Visual Genome
|Зображення та їх опис
|Images and their description
|
|
|108,000
|108,000
|Зображення, текст
|images, text
|Підписи до зображень
|Image captioning
|2016
|2016
|<ref>{{Cite journal|doi=10.1007/s11263-016-0981-7|title=Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations|journal=International Journal of Computer Vision|volume=123|pages=32–73|year=2017|last1=Krishna|first1=Ranjay|last2=Zhu|first2=Yuke|last3=Groth|first3=Oliver|last4=Johnson|first4=Justin|last5=Hata|first5=Kenji|last6=Kravitz|first6=Joshua|last7=Chen|first7=Stephanie|last8=Kalantidis|first8=Yannis|last9=Li|first9=Li-Jia|last10=Shamma|first10=David A|last11=Bernstein|first11=Michael S|last12=Fei-Fei|first12=Li|arxiv=1602.07332}}</ref>
|<ref>{{Cite journal|doi=10.1007/s11263-016-0981-7|title=Visual Genome: Connecting Language and Vision Using Crowdsourced Dense Image Annotations|journal=International Journal of Computer Vision|volume=123|pages=32–73|year=2017|last1=Krishna|first1=Ranjay|last2=Zhu|first2=Yuke|last3=Groth|first3=Oliver|last4=Johnson|first4=Justin|last5=Hata|first5=Kenji|last6=Kravitz|first6=Joshua|last7=Chen|first7=Stephanie|last8=Kalantidis|first8=Yannis|last9=Li|first9=Li-Jia|last10=Shamma|first10=David A|last11=Bernstein|first11=Michael S|last12=Fei-Fei|first12=Li|arxiv=1602.07332}}</ref>
|R. Krishna et al.
|R. Krishna et al.
|-
|DAVIS: Densely Annotated VIdeo Segmentation 2017
|150 video sequences containing 10459 frames with a total of 376 objects annotated.
|Dataset released for the 2017 DAVIS Challenge with a dedicated workshop co-located with CVPR 2017. The videos contain several types of objects and humans with a high quality segmentation annotation.In each video sequence multiple instances are annotated.
|10,459
|Frames annotated
|Video object segmentation
|2017
|<ref>{{cite arxiv |eprint=1704.00675|last1=Pont-Tuset|first1=Jordi|title=The 2017 DAVIS Challenge on Video Object Segmentation|last2=Perazzi|first2=Federico|last3=Caelles|first3=Sergi|last4=Arbeláez|first4=Pablo|last5=Sorkine-Hornung|first5=Alex|author6=Luc Van Gool|class=cs.CV|year=2017}}</ref>
|Pont-Tuset, J. et al.
|-
|DAVIS: Densely Annotated VIdeo Segmentation 2016
|50 video sequences containing 3455 frames with a total of 50 objects annotated.
|Dataset released with the CVPR 2016 paper. The videos contain several types of objects and humans with a high quality segmentation annotation. In each video sequence a single instance is annotated.
|3,455
|Frames annotated
|Video object segmentation
|2016
|<ref>{{cite journal |last1=Perazzi |first1=Federico |title=A Benchmark Dataset and Evaluation Methodology for Video Object Segmentation |last2=Pont-Tuset |first2=Jordi |last3=McWilliams |first3=Brian |first4=Luc |last4=Van Gool |last5=Gross |first5=Markus |last6=Sorkine-Hornung |first6=Alex |year=2016 |url=https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Perazzi_A_Benchmark_Dataset_CVPR_2016_paper.pdf |journal= |accessdate=7 вересня 2019 |archive-date=5 листопада 2020 |archive-url=https://web.archive.org/web/20201105000852/https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/Perazzi_A_Benchmark_Dataset_CVPR_2016_paper.pdf }}</ref>
|Perazzi, F. et al.
|-
|T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects
|30 industry-relevant objects. 39K training and 10K test images from each of three sensors. Two types of 3D models for each object.
|6D poses for all modeled objects in all images. Per-pixel labelling can be obtained by rendering of the object models at the ground truth poses.
|49,000
|RGB-D images, 3D object models
|6D object pose estimation, object detection
|2017
|<ref>Hodan, T., et al. "T-LESS: An RGB-D Dataset for 6D Pose Estimation of Texture-less Objects." ''Winter Conference on Applications of Computer Vision (WACV) 2017''.</ref>
|T. Hodan et al.
|-
|-
|Berkeley 3-D Object Dataset
|Berkeley 3-D Object Dataset
|849 зображень, зроблених у 75 різних сценах. Позначено близько 50 різних класів об’єктів.
|849 images taken in 75 different scenes. About 50 different object classes are labeled.
|Обмежувальні рамки та маркування об’єктів.
|Object bounding boxes and labeling.
|849
|849
|Марковані зображення, текст
|labeled images, text
|Розпізнавання об'єктів
|Object recognition
|2014
|2014
|<ref name=":6">Karayev, S., et al. "[http://alliejanoch.com/iccvw2011.pdf A category-level 3-D object dataset: putting the Kinect to work] {{Webarchive|url=https://web.archive.org/web/20191221223939/http://alliejanoch.com/iccvw2011.pdf |date=21 грудня 2019 }}." ''Proceedings of the IEEE International Conference on Computer Vision Workshops''. 2011.</ref><ref>Tighe, Joseph, and Svetlana Lazebnik. "[http://152.2.128.56/~jtighe/Papers/ECCV10/eccv10-jtighe.pdf Superparsing: scalable nonparametric image parsing with superpixels] {{Webarchive|url=https://web.archive.org/web/20190806022752/http://152.2.128.56/~jtighe/Papers/ECCV10/eccv10-jtighe.pdf |date=6 серпня 2019 }}." ''Computer Vision–ECCV 2010''. Springer Berlin Heidelberg, 2010. 352–365.</ref>
|<ref name=":6">Karayev, S., et al. "[http://alliejanoch.com/iccvw2011.pdf A category-level 3-D object dataset: putting the Kinect to work] {{Webarchive|url=https://web.archive.org/web/20191221223939/http://alliejanoch.com/iccvw2011.pdf |date=21 грудня 2019 }}." ''Proceedings of the IEEE International Conference on Computer Vision Workshops''. 2011.</ref><ref>Tighe, Joseph, and Svetlana Lazebnik. "[http://152.2.128.56/~jtighe/Papers/ECCV10/eccv10-jtighe.pdf Superparsing: scalable nonparametric image parsing with superpixels] {{Webarchive|url=https://web.archive.org/web/20190806022752/http://152.2.128.56/~jtighe/Papers/ECCV10/eccv10-jtighe.pdf |date=6 серпня 2019 }}." ''Computer Vision–ECCV 2010''. Springer Berlin Heidelberg, 2010. 352–365.</ref>
Рядок 289: Рядок 380:
|-
|-
|Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500)
|Berkeley Segmentation Data Set and Benchmarks 500 (BSDS500)
|500 природних зображень, чітко розділених на розрізнені потяги, підмножини перевірки та тестування + код порівняльного аналізу. На основі BSDS300.
|500 natural images, explicitly separated into disjoint train, validation and test subsets + benchmarking code. Based on BSDS300.
|Кожне зображення сегментовано в середньому за п’ятьма різними предметами.
|Each image segmented by five different subjects on average.
|500
|500
|Сегментовані зображення
|Segmented images
|Виявлення контурів та ієрархічна сегментація зображення
|Contour detection and hierarchical image segmentation
|2011
|2011
|<ref>{{cite journal|last1=Arbelaez|first1=P.|last2=Maire|first2=M|last3=Fowlkes|first3=C|last4=Malik|first4=J|title=Contour Detection and Hierarchical Image Segmentation|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=May 2011|volume=33|issue=5|pages=898–916|url=http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/papers/amfm_pami2010.pdf|accessdate=27 лютого 2016|doi=10.1109/tpami.2010.161|pmid=20733228|archive-date=8 травня 2012|archive-url=https://web.archive.org/web/20120508112705/http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/papers/amfm_pami2010.pdf}}</ref>
|<ref>{{cite journal|last1=Arbelaez|first1=P.|last2=Maire|first2=M|last3=Fowlkes|first3=C|last4=Malik|first4=J|title=Contour Detection and Hierarchical Image Segmentation|journal=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=May 2011|volume=33|issue=5|pages=898–916|url=http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/papers/amfm_pami2010.pdf|accessdate=27 лютого 2016|doi=10.1109/tpami.2010.161|pmid=20733228|archive-date=8 травня 2012|archive-url=https://web.archive.org/web/20120508112705/http://www.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/papers/amfm_pami2010.pdf}}</ref>
Рядок 299: Рядок 390:
|-
|-
|{{якірець|COCO}}Microsoft Common Objects in Context (COCO)
|{{якірець|COCO}}Microsoft Common Objects in Context (COCO)
|складні побутові сцени звичайних предметів у їх природному контексті.
|complex everyday scenes of common objects in their natural context.
|Виділення, маркування та класифікація об’єктів на 91 тип об’єкта.
|Object highlighting, labeling, and classification into 91 object types.
|2,500,000
|2,500,000
|Марковані зображення, текст
|Labeled images, text
|Розпізнавання об'єктів
|Object recognition
|2015
|2015
|<ref>Lin, Tsung-Yi, et al. "[https://arxiv.org/pdf/1405.0312 Microsoft coco: Common objects in context]." ''Computer Vision–ECCV 2014''. Springer International Publishing, 2014. 740–755.</ref><ref>{{cite journal | last1 = Russakovsky | first1 = Olga | display-authors = et al | year = 2015 | title = Imagenet large scale visual recognition challenge | url = | journal = International Journal of Computer Vision | volume = 115 | issue = 3| pages = 211–252 | doi=10.1007/s11263-015-0816-y| arxiv = 1409.0575 | hdl = 1721.1/104944 }}</ref><ref>{{cite web|url=https://cocodataset.org/|title=COCO - Common Objects in Context|website=cocodataset.org|accessdate=17 жовтня 2021|archive-date=20 жовтня 2021|archive-url=https://web.archive.org/web/20211020031815/https://cocodataset.org/}}</ref>
|<ref>Lin, Tsung-Yi, et al. "[https://arxiv.org/pdf/1405.0312 Microsoft coco: Common objects in context]." ''Computer Vision–ECCV 2014''. Springer International Publishing, 2014. 740–755.</ref><ref>{{Cite news|title=ImageNet Large Scale Visual Recognition Challenge|url=https://doi.org/10.1007/s11263-015-0816-y|work=International Journal of Computer Vision|date=2015-12-01|accessdate=2022-05-27|issn=1573-1405|doi=10.1007/s11263-015-0816-y|pages=211–252|volume=115|issue=3|language=en|first=Olga|last=Russakovsky|first2=Jia|last2=Deng|first3=Hao|last3=Su|first4=Jonathan|last4=Krause|first5=Sanjeev|last5=Satheesh|first6=Sean|last6=Ma|first7=Zhiheng|last7=Huang|first8=Andrej|last8=Karpathy|first9=Aditya|last9=Khosla}}</ref><ref>{{cite web|url=https://cocodataset.org/|title=COCO - Common Objects in Context|website=cocodataset.org|accessdate=17 жовтня 2021|archive-date=20 жовтня 2021|archive-url=https://web.archive.org/web/20211020031815/https://cocodataset.org/}}</ref>
|T. Lin et al.
|T. Lin et al.
|-
|-
|SUN Database
|SUN Database
|Дуже велика база даних розпізнавання сцен і об'єктів.
|Very large scene and object recognition database.
|Місця та предмети позначаються. Об’єкти сегментовані.
|Places and objects are labeled. Objects are segmented.
|131,067
|131,067
|Зображення, текст
|Images, text
|Розпізнавання об'єктів, розпізнавання сцени
|Object recognition, scene recognition
|2014
|2014
|<ref>Xiao, Jianxiong, et al. "Sun database: Large-scale scene recognition from abbey to zoo." ''Computer vision and pattern recognition (CVPR), 2010 IEEE conference on''. IEEE, 2010.</ref><ref>{{cite arXiv |eprint=1310.1531|last1=Donahue|first1=Jeff|title=DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition |last2=Jia|first2=Yangqing|last3=Vinyals|first3=Oriol|last4=Hoffman|first4=Judy|last5=Zhang|first5=Ning|last6=Tzeng|first6=Eric|last7=Darrell|first7=Trevor|class=cs.CV|year=2013}}</ref>
|<ref>Xiao, Jianxiong, et al. "Sun database: Large-scale scene recognition from abbey to zoo." ''Computer vision and pattern recognition (CVPR), 2010 IEEE conference on''. IEEE, 2010.</ref><ref>{{cite arXiv |eprint=1310.1531|last1=Donahue|first1=Jeff|title=DeCAF: A Deep Convolutional Activation Feature for Generic Visual Recognition |last2=Jia|first2=Yangqing|last3=Vinyals|first3=Oriol|last4=Hoffman|first4=Judy|last5=Zhang|first5=Ning|last6=Tzeng|first6=Eric|last7=Darrell|first7=Trevor|class=cs.CV|year=2013}}</ref>
|J. Xiao et al.
|J. Xiao et al.
|-
|-
|[[ImageNet]]
|[[:en:ImageNet|ImageNet]]
|Labeled object image database, used in the [[ImageNet Large Scale Visual Recognition Challenge]]
|Labeled object image database, used in the [[:en:ImageNet_Large_Scale_Visual_Recognition_Challenge|ImageNet Large Scale Visual Recognition Challenge]]
|Позначені об’єкти, обмежувальні рамки, описові слова, функції SIFT
|Labeled objects, bounding boxes, descriptive words, SIFT features
|14,197,122
|14,197,122
|Зображення, текст
|Images, text
|Розпізнавання об'єктів, розпізнавання сцени
|Object recognition, scene recognition
|2009 (2014)
|2009 (2014)
|<ref>Deng, Jia, et al. "[https://www.researchgate.net/profile/Li_Jia_Li/publication/221361415_ImageNet_a_Large-Scale_Hierarchical_Image_Database/links/00b495388120dbc339000000/ImageNet-a-Large-Scale-Hierarchical-Image-Database.pdf Imagenet: A large-scale hierarchical image database]."''Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on''. IEEE, 2009.</ref><ref name=":02"/><ref>{{cite journal|last1=Russakovsky|first1=Olga|last2=Deng|first2=Jia|last3=Su|first3=Hao|last4=Krause|first4=Jonathan|last5=Satheesh|first5=Sanjeev|last6=Ma|first6=Sean|last7=Huang|first7=Zhiheng|last8=Karpathy|first8=Andrej|last9=Khosla|first9=Aditya|last10=Bernstein|first10=Michael|last11=Berg|first11=Alexander C.|last12=Fei-Fei|first12=Li|display-authors=5|title=ImageNet Large Scale Visual Recognition Challenge|journal=International Journal of Computer Vision|date=11 квітня 2015|volume=115|issue=3|pages=211–252|doi=10.1007/s11263-015-0816-y|arxiv=1409.0575|hdl=1721.1/104944}}</ref>
|<ref>Deng, Jia, et al. "[https://www.researchgate.net/profile/Li_Jia_Li/publication/221361415_ImageNet_a_Large-Scale_Hierarchical_Image_Database/links/00b495388120dbc339000000/ImageNet-a-Large-Scale-Hierarchical-Image-Database.pdf Imagenet: A large-scale hierarchical image database]."''Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on''. IEEE, 2009.</ref><ref name=":02" /><ref>{{Cite news|title=ImageNet Large Scale Visual Recognition Challenge|url=https://doi.org/10.1007/s11263-015-0816-y|work=International Journal of Computer Vision|date=2015-12-01|accessdate=2022-05-27|issn=1573-1405|doi=10.1007/s11263-015-0816-y|pages=211–252|volume=115|issue=3|language=en|first=Olga|last=Russakovsky|first2=Jia|last2=Deng|first3=Hao|last3=Su|first4=Jonathan|last4=Krause|first5=Sanjeev|last5=Satheesh|first6=Sean|last6=Ma|first7=Zhiheng|last7=Huang|first8=Andrej|last8=Karpathy|first9=Aditya|last9=Khosla}}</ref>
|J. Deng et al.
|J. Deng et al.
|-
|-
|Open Images
|Open Images
|Великий набір зображень із ліцензією CC BY 2.0 з мітками на рівні зображення та обмежуючими рамками, що охоплюють тисячі класів.
|A Large set of images listed as having CC BY 2.0 license with image-level labels and bounding boxes spanning thousands of classes.
|Мітки на рівні зображення, обмежувальні рамки
|Image-level labels, Bounding boxes
|9,178,275
|9,178,275
|Зображення, текст
|Images, text
|Класифікація, розпізнавання об'єктів
|Classification, Object recognition
|2017
|2017
|<ref>Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. "OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2017. Available from https://github.com/openimages {{Webarchive|url=https://web.archive.org/web/20200414165703/https://github.com/openimages |date=14 квітня 2020 }}."</ref>
|<ref>Ivan Krasin, Tom Duerig, Neil Alldrin, Andreas Veit, Sami Abu-El-Haija, Serge Belongie, David Cai, Zheyun Feng, Vittorio Ferrari, Victor Gomes, Abhinav Gupta, Dhyanesh Narayanan, Chen Sun, Gal Chechik, Kevin Murphy. "OpenImages: A public dataset for large-scale multi-label and multi-class image classification, 2017. Available from https://github.com/openimages {{Webarchive|url=https://web.archive.org/web/20200414165703/https://github.com/openimages |date=14 квітня 2020 }}."</ref>
Рядок 339: Рядок 430:
|-
|-
|TV News Channel Commercial Detection Dataset
|TV News Channel Commercial Detection Dataset
|Телевізійна реклама та випуск новин.
|TV commercials and news broadcasts.
|Функції аудіо та відео, отримані з фотографій.
|Audio and video features extracted from still images.
|129,685
|129,685
|Текст
|Text
|Кластеризація, класифікація
|Clustering, classification
|2015
|2015
|<ref>Vyas, Apoorv, et al. "[https://dl.acm.org/citation.cfm?id=2683546 Commercial Block Detection in Broadcast News Videos]." ''Proceedings of the 2014 Indian Conference on Computer Vision Graphics and Image Processing''. ACM, 2014.</ref><ref>Hauptmann, Alexander G., and Michael J. Witbrock. "[https://pdfs.semanticscholar.org/5c21/6db7892fa3f515d816f84893bfab1137f0b2.pdf Story segmentation and detection of commercials in broadcast news video]." ''Research and Technology Advances in Digital Libraries, 1998. ADL 98. Proceedings. IEEE International Forum on''. IEEE, 1998.</ref>
|<ref>Vyas, Apoorv, et al. "[https://dl.acm.org/citation.cfm?id=2683546 Commercial Block Detection in Broadcast News Videos]." ''Proceedings of the 2014 Indian Conference on Computer Vision Graphics and Image Processing''. ACM, 2014.</ref><ref>Hauptmann, Alexander G., and Michael J. Witbrock. "[https://pdfs.semanticscholar.org/5c21/6db7892fa3f515d816f84893bfab1137f0b2.pdf Story segmentation and detection of commercials in broadcast news video]." ''Research and Technology Advances in Digital Libraries, 1998. ADL 98. Proceedings. IEEE International Forum on''. IEEE, 1998.</ref>
Рядок 349: Рядок 440:
|-
|-
|Statlog (Image Segmentation) Dataset
|Statlog (Image Segmentation) Dataset
|Примірники були відібрані випадковим чином з бази даних із 7 зовнішніх зображень і сегментовані вручну, щоб створити класифікацію для кожного пікселя.
|The instances were drawn randomly from a database of 7 outdoor images and hand-segmented to create a classification for every pixel.
|Розраховано багато функцій.
|Many features calculated.
|2310
|2310
|Текст
|Text
|Класифікація
|Classification
|1990
|1990
|<ref>Tung, Anthony KH, Xin Xu, and Beng Chin Ooi. "[https://www.researchgate.net/profile/Anthony_Tung/publication/221214229_CURLER_Finding_and_Visualizing_Nonlinear_Correlated_Clusters/links/55b8691a08aed621de05cd92.pdf Curler: finding and visualizing nonlinear correlation clusters] {{Webarchive|url=https://web.archive.org/web/20190806022751/https://www.researchgate.net/profile/Anthony_Tung/publication/221214229_CURLER_Finding_and_Visualizing_Nonlinear_Correlated_Clusters/links/55b8691a08aed621de05cd92.pdf |date=6 серпня 2019 }}." ''Proceedings of the 2005 ACM SIGMOD international conference on Management of data''. ACM, 2005.</ref>
|<ref>Tung, Anthony KH, Xin Xu, and Beng Chin Ooi. "[https://www.researchgate.net/profile/Anthony_Tung/publication/221214229_CURLER_Finding_and_Visualizing_Nonlinear_Correlated_Clusters/links/55b8691a08aed621de05cd92.pdf Curler: finding and visualizing nonlinear correlation clusters] {{Webarchive|url=https://web.archive.org/web/20190806022751/https://www.researchgate.net/profile/Anthony_Tung/publication/221214229_CURLER_Finding_and_Visualizing_Nonlinear_Correlated_Clusters/links/55b8691a08aed621de05cd92.pdf |date=6 серпня 2019 }}." ''Proceedings of the 2005 ACM SIGMOD international conference on Management of data''. ACM, 2005.</ref>
|[[University of Massachusetts]]
|[[:en:University_of_Massachusetts|University of Massachusetts]]
|-
|-
|[[Caltech 101]]
|[[:en:Caltech_101|Caltech 101]]
|Зображення предметів.
|Pictures of objects.
|Позначено детальні контури об'єкта.
|Detailed object outlines marked.
|9146
|9146
|Зображення
|Images
|Класифікація, розпізнавання об'єктів.
|Classification, object recognition.
|2003
|2003
|<ref>Jarrett, Kevin, et al. "[https://ieeexplore.ieee.org/abstract/document/5459469/ What is the best multi-stage architecture for object recognition?] {{Webarchive|url=https://web.archive.org/web/20190806184005/https://ieeexplore.ieee.org/abstract/document/5459469/ |date=6 серпня 2019 }}." ''Computer Vision, 2009 IEEE 12th International Conference on''. IEEE, 2009.</ref><ref>Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. "[https://hal.inria.fr/inria-00548585/document Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories] {{Webarchive|url=https://web.archive.org/web/20190806184003/https://hal.inria.fr/inria-00548585/document |date=6 серпня 2019 }}."''Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on''. Vol. 2. IEEE, 2006.</ref>
|<ref>Jarrett, Kevin, et al. "[https://ieeexplore.ieee.org/abstract/document/5459469/ What is the best multi-stage architecture for object recognition?] {{Webarchive|url=https://web.archive.org/web/20190806184005/https://ieeexplore.ieee.org/abstract/document/5459469/ |date=6 серпня 2019 }}." ''Computer Vision, 2009 IEEE 12th International Conference on''. IEEE, 2009.</ref><ref>Lazebnik, Svetlana, Cordelia Schmid, and Jean Ponce. "[https://hal.inria.fr/inria-00548585/document Beyond bags of features: Spatial pyramid matching for recognizing natural scene categories] {{Webarchive|url=https://web.archive.org/web/20190806184003/https://hal.inria.fr/inria-00548585/document |date=6 серпня 2019 }}."''Computer Vision and Pattern Recognition, 2006 IEEE Computer Society Conference on''. Vol. 2. IEEE, 2006.</ref>
Рядок 369: Рядок 460:
|-
|-
|Caltech-256
|Caltech-256
|Великий набір зображень для класифікації об’єктів.
|Large dataset of images for object classification.
|Зображення розбиті на категорії та відсортовані вручну.
|Images categorized and hand-sorted.
|30,607
|30,607
|Зображення, текст
|Images, Text
|Класифікація, виявлення об'єктів
|Classification, object detection
|2007
|2007
|<ref>Griffin, G., A. Holub, and P. Perona. ''Caltech-256 object category dataset California Inst''. Technol., Tech. Rep. 7694, 2007 [Online]. Available: http://authors.library.caltech.edu/7694 {{Webarchive|url=https://web.archive.org/web/20190707212813/https://authors.library.caltech.edu/7694/ |date=7 липня 2019 }} , 2007.</ref><ref>Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto. ''Modern information retrieval''. Vol. 463. New York: ACM press, 1999.</ref>
|<ref>Griffin, G., A. Holub, and P. Perona. ''Caltech-256 object category dataset California Inst''. Technol., Tech. Rep. 7694, 2007 [Online]. Available: http://authors.library.caltech.edu/7694 {{Webarchive|url=https://web.archive.org/web/20190707212813/https://authors.library.caltech.edu/7694/ |date=7 липня 2019 }} , 2007.</ref><ref>Baeza-Yates, Ricardo, and Berthier Ribeiro-Neto. ''Modern information retrieval''. Vol. 463. New York: ACM press, 1999.</ref>
Рядок 379: Рядок 470:
|-
|-
|SIFT10M Dataset
|SIFT10M Dataset
|SIFT features of Caltech-256 dataset.
|Функції SIFT набору даних Caltech-256.
|Розширене вилучення функцій SIFT..
|Extensive SIFT feature extraction.
|11,164,866
|11,164,866
|Текст
|Text
|Класифікація, виявлення об'єктів
|Classification, object detection
|2016
|2016
|<ref>Fu, Xiping, et al. "[https://pdfs.semanticscholar.org/9da2/abae3072fd9fcff0e13b8f00fc21f22d0085.pdf NOKMeans: Non-Orthogonal K-means Hashing]." ''Computer Vision—ACCV 2014''. Springer International Publishing, 2014. 162–177.</ref>
|<ref>Fu, Xiping, et al. "[https://pdfs.semanticscholar.org/9da2/abae3072fd9fcff0e13b8f00fc21f22d0085.pdf NOKMeans: Non-Orthogonal K-means Hashing]." ''Computer Vision—ACCV 2014''. Springer International Publishing, 2014. 162–177.</ref>
Рядок 389: Рядок 480:
|-
|-
|LabelMe
|LabelMe
|Коментовані зображення сцен.
|Annotated pictures of scenes.
|Окреслені об’єкти.
|Objects outlined.
|187,240
|187,240
|Зображення, текст
|Images, text
|Класифікація, виявлення об'єктів
|Classification, object detection
|2005
|2005
|<ref>{{cite journal | last1 = Heitz | first1 = Geremy | display-authors = et al | year = 2009 | title = Shape-based object localization for descriptive classification | url = | journal = International Journal of Computer Vision | volume = 84 | issue = 1| pages = 40–62 | doi=10.1007/s11263-009-0228-y| citeseerx = 10.1.1.142.280 }}</ref>
|<ref>{{Cite news|title=Shape-Based Object Localization for Descriptive Classification|url=https://doi.org/10.1007/s11263-009-0228-y|work=International Journal of Computer Vision|date=2009-08-01|accessdate=2022-05-27|issn=1573-1405|doi=10.1007/s11263-009-0228-y|pages=40–62|volume=84|issue=1|language=en|first=Geremy|last=Heitz|first2=Gal|last2=Elidan|first3=Benjamin|last3=Packer|first4=Daphne|last4=Koller}}</ref>
|[[MIT Computer Science and Artificial Intelligence Laboratory]]
|[[:en:MIT_Computer_Science_and_Artificial_Intelligence_Laboratory|MIT Computer Science and Artificial Intelligence Laboratory]]
|-
|-
|Cityscapes Dataset
|Cityscapes Dataset
|Стерео-відеосекції, записані у вуличних сценах, з анотаціями на рівні пікселів. Метадані також включені.
|Stereo video sequences recorded in street scenes, with pixel-level annotations. Metadata also included.
|Сегментація та маркування на рівні пікселів
|Pixel-level segmentation and labeling
|25,000
|25,000
|Зображення, текст
|Images, text
|Класифікація, виявлення об'єктів
|Classification, object detection


|2016
|2016
Рядок 410: Рядок 501:
|-
|-
|PASCAL VOC Dataset
|PASCAL VOC Dataset
|Велика кількість зображень для завдань класифікації.
|Large number of images for classification tasks.
|Маркування, обмежувальна рамка в комплекті
|Labeling, bounding box included
|500,000
|500,000
|Зображення, текст
|Images, text
|Класифікація, виявлення об'єктів
|Classification, object detection
|2010
|2010
|<ref>{{cite journal | last1 = Everingham | first1 = Mark | display-authors = et al | year = 2010 | title = The pascal visual object classes (voc) challenge | url = | journal = International Journal of Computer Vision | volume = 88 | issue = 2| pages = 303–338 | doi=10.1007/s11263-009-0275-4}}</ref><ref>{{cite journal | last1 = Felzenszwalb | first1 = Pedro F. | display-authors = et al | year = 2010 | title = Object detection with discriminatively trained part-based models | url = | journal = IEEE Transactions on Pattern Analysis and Machine Intelligence | volume = 32 | issue = 9| pages = 1627–1645 | doi=10.1109/tpami.2009.167| pmid = 20634557 | citeseerx = 10.1.1.153.2745 }}</ref>
|<ref>{{cite journal | last1 = Everingham | first1 = Mark | display-authors = et al | year = 2010 | title = The pascal visual object classes (voc) challenge | url = | journal = International Journal of Computer Vision | volume = 88 | issue = 2| pages = 303–338 | doi=10.1007/s11263-009-0275-4}}</ref><ref>{{Cite news|title=Object Detection with Discriminatively Trained Part-Based Models|url=https://ieeexplore.ieee.org/document/5255236/|work=IEEE Transactions on Pattern Analysis and Machine Intelligence|date=2010-09|accessdate=2022-05-27|issn=1939-3539|doi=10.1109/TPAMI.2009.167|pages=1627–1645|volume=32|issue=9|first=Pedro F.|last=Felzenszwalb|first2=Ross B.|last2=Girshick|first3=David|last3=McAllester|first4=Deva|last4=Ramanan}}</ref>
|M. Everingham et al.
|M. Everingham et al.
|-
|-
|[[CIFAR-10]] Dataset
|[[:en:CIFAR-10|CIFAR-10]] Dataset
|Багато маленьких зображень з низькою роздільною здатністю 10 класів об’єктів.
|Many small, low-resolution, images of 10 classes of objects.
|Класи позначені, створені розділи навчальних наборів.
|Classes labelled, training set splits created.
|60,000
|60,000
|Зображення
|Images
|Класифікація
|Classification
|2009
|2009
|<ref name=":02">Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "[http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf Imagenet classification with deep convolutional neural networks] {{Webarchive|url=https://web.archive.org/web/20190831221211/https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf |date=31 серпня 2019 }}." ''Advances in neural information processing systems''. 2012.</ref><ref name=":12">Gong, Yunchao, and Svetlana Lazebnik. "Iterative quantization: A procrustean approach to learning binary codes." ''Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on''. IEEE, 2011.</ref>
|<ref name=":02">Krizhevsky, Alex, Ilya Sutskever, and Geoffrey E. Hinton. "[http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf Imagenet classification with deep convolutional neural networks] {{Webarchive|url=https://web.archive.org/web/20190831221211/https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf |date=31 серпня 2019 }}." ''Advances in neural information processing systems''. 2012.</ref><ref name=":12">Gong, Yunchao, and Svetlana Lazebnik. "Iterative quantization: A procrustean approach to learning binary codes." ''Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on''. IEEE, 2011.</ref>
Рядок 430: Рядок 521:
|-
|-
|CIFAR-100 Dataset
|CIFAR-100 Dataset
|Like CIFAR-10, above, but 100 classes of objects are given.
|Як і CIFAR-10, вище, але надано 100 класів об'єктів.
|Класи позначені, створені розділи навчальних наборів.
|Classes labelled, training set splits created.
|60,000
|60,000
|Зображення
|Images
|Класифікація
|Classification
|2009
|2009
|<ref name=":02"/><ref name=":12"/>
|<ref name=":02" /><ref name=":12" />
|A. Krizhevsky et al.
|A. Krizhevsky et al.
|-
|-
|CINIC-10 Dataset
|CINIC-10 Dataset
|A unified contribution of CIFAR-10 and Imagenet with 10 classes, and 3 splits. Larger than CIFAR-10.
|Єдиний внесок CIFAR-10 і Imagenet з 10 класами і 3 розділами. Більше за CIFAR-10.
|Класи позначені, навчання, перевірка, створені розділи тестових наборів.
|Classes labelled, training, validation, test set splits created.
|270,000
|270,000
|Зображення
|Images
|Класифікація
|Classification
|2018
|2018
|<ref>{{cite web|title=CINIC-10 dataset|url=http://www.bayeswatch.com/2018/10/09/CINIC/|website=Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 is not ImageNet or CIFAR-10|accessdate=2018-11-13|date=2018-10-09|archive-date=12 листопада 2018|archive-url=https://web.archive.org/web/20181112181642/http://www.bayeswatch.com/2018/10/09/CINIC/}}</ref>
|<ref>{{cite web|title=CINIC-10 dataset|url=http://www.bayeswatch.com/2018/10/09/CINIC/|website=Luke N. Darlow, Elliot J. Crowley, Antreas Antoniou, Amos J. Storkey (2018) CINIC-10 is not ImageNet or CIFAR-10|accessdate=2018-11-13|date=2018-10-09|archive-date=12 листопада 2018|archive-url=https://web.archive.org/web/20181112181642/http://www.bayeswatch.com/2018/10/09/CINIC/}}</ref>
Рядок 450: Рядок 541:
|-
|-
|Fashion-MNIST
|Fashion-MNIST
|База даних модних товарів, схожа на MNIST
|A MNIST-like fashion product database
|Класи позначені, створені розділи навчальних наборів.
|Classes labelled, training set splits created.
|60,000
|60,000
|Зображення
|Images
|Класифікація
|Classification
|2017
|2017
|<ref>{{Citation|title=fashion-mnist: A MNIST-like fashion product database. Benchmark :point_right|date=2017-10-07|url=https://github.com/zalandoresearch/fashion-mnist|publisher=Zalando Research|accessdate=2017-10-07|archive-date=20 липня 2019|archive-url=https://web.archive.org/web/20190720224405/https://github.com/zalandoresearch/fashion-mnist}}</ref>
|<ref>{{Citation|title=fashion-mnist: A MNIST-like fashion product database. Benchmark :point_right|date=2017-10-07|url=https://github.com/zalandoresearch/fashion-mnist|publisher=Zalando Research|accessdate=2017-10-07|archive-date=20 липня 2019|archive-url=https://web.archive.org/web/20190720224405/https://github.com/zalandoresearch/fashion-mnist}}</ref>
Рядок 460: Рядок 551:
|-
|-
|notMNIST
|notMNIST
|Деякі загальнодоступні шрифти та витягнуті з них гліфи, щоб зробити набір даних подібним до MNIST. Існує 10 класів, з літерами A-J, взятими з різних шрифтів.
|Some publicly available fonts and extracted glyphs from them to make a dataset similar to MNIST. There are 10 classes, with letters A-J taken from different fonts.
Deyaki zahalʹnodostupni
|Classes labelled, training set splits created.
|Класи позначені, створені розділи навчальних наборів.
|500,000
|500,000
|Зображення
|Images
|Класифікація
|Classification
|2011
|2011
|<ref>{{cite web|title=notMNIST dataset|url=http://yaroslavvb.blogspot.com/2011/09/notmnist-dataset.html|website=Machine Learning, etc|accessdate=2017-10-13|date=2011-09-08|archive-date=1 вересня 2019|archive-url=https://web.archive.org/web/20190901094830/http://yaroslavvb.blogspot.com/2011/09/notmnist-dataset.html}}</ref>
|<ref>{{cite web|title=notMNIST dataset|url=http://yaroslavvb.blogspot.com/2011/09/notmnist-dataset.html|website=Machine Learning, etc|accessdate=2017-10-13|date=2011-09-08|archive-date=1 вересня 2019|archive-url=https://web.archive.org/web/20190901094830/http://yaroslavvb.blogspot.com/2011/09/notmnist-dataset.html}}</ref>
Рядок 470: Рядок 562:
|-
|-
|German Traffic Sign Detection Benchmark Dataset
|German Traffic Sign Detection Benchmark Dataset
|Зображення з транспортних засобів дорожніх знаків на німецьких дорогах. Ці знаки відповідають стандартам ООН і тому такі ж, як і в інших країнах.
|Images from vehicles of traffic signs on German roads. These signs comply with UN standards and therefore are the same as in other countries.
|Знаки з маркуванням вручну
|Signs manually labeled
|900
|900
|Зображення
|Images
|Класифікація
|Classification
|2013
|2013
|<ref>Houben, Sebastian, et al. "[https://www.researchgate.net/profile/Sebastian_Houben/publication/242346625_Detection_of_Traffic_Signs_in_Real-World_Images_The_German_Traffic_Sign_Detection_Benchmark/links/0046352a03ec384e97000000/Detection-of-Traffic-Signs-in-Real-World-Images-The-German-Traffic-Sign-Detection-Benchmark.pdf Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark]." ''Neural Networks (IJCNN), The 2013 International Joint Conference on''. IEEE, 2013.</ref><ref>Mathias, Mayeul, et al. "[http://www.varcity.eu/paper/ijcnn2013_mathias_trafficsign.pdf Traffic sign recognition—How far are we from the solution?] {{Webarchive|url=https://web.archive.org/web/20201230001628/http://varcity.eu/paper/ijcnn2013_mathias_trafficsign.pdf |date=30 грудня 2020 }}." ''Neural Networks (IJCNN), The 2013 International Joint Conference on''. IEEE, 2013.</ref>
|<ref>Houben, Sebastian, et al. "[https://www.researchgate.net/profile/Sebastian_Houben/publication/242346625_Detection_of_Traffic_Signs_in_Real-World_Images_The_German_Traffic_Sign_Detection_Benchmark/links/0046352a03ec384e97000000/Detection-of-Traffic-Signs-in-Real-World-Images-The-German-Traffic-Sign-Detection-Benchmark.pdf Detection of traffic signs in real-world images: The German Traffic Sign Detection Benchmark]." ''Neural Networks (IJCNN), The 2013 International Joint Conference on''. IEEE, 2013.</ref><ref>Mathias, Mayeul, et al. "[http://www.varcity.eu/paper/ijcnn2013_mathias_trafficsign.pdf Traffic sign recognition—How far are we from the solution?] {{Webarchive|url=https://web.archive.org/web/20201230001628/http://varcity.eu/paper/ijcnn2013_mathias_trafficsign.pdf |date=30 грудня 2020 }}." ''Neural Networks (IJCNN), The 2013 International Joint Conference on''. IEEE, 2013.</ref>
Рядок 480: Рядок 572:
|-
|-
|{{якірець|KITTI}}KITTI Vision Benchmark Dataset
|{{якірець|KITTI}}KITTI Vision Benchmark Dataset
|Автономні транспортні засоби, що рухалися містом середнього розміру, фіксували зображення різних районів за допомогою камер і лазерних сканерів.
|Autonomous vehicles driving through a mid-size city captured images of various areas using cameras and laser scanners.
|Багато тестів, отриманих з даних.
|Many benchmarks extracted from data.
|>100 GB of data
|>100 GB of data
|Зображення, текст
|Images, text
|Класифікація, виявлення об'єктів
|Classification, object detection
|2012
|2012
|<ref>Geiger, Andreas, Philip Lenz, and Raquel Urtasun. "[http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf Are we ready for autonomous driving? the kitti vision benchmark suite] {{Webarchive|url=https://web.archive.org/web/20181222224429/http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf |date=22 грудня 2018 }}." ''Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on''. IEEE, 2012.</ref><ref>Sturm, Jürgen, et al. "[http://jsturm.de/publications/data/sturm12iros.pdf A benchmark for the evaluation of RGB-D SLAM systems] {{Webarchive|url=https://web.archive.org/web/20190712065954/http://jsturm.de/publications/data/sturm12iros.pdf |date=12 липня 2019 }}." ''Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on''. IEEE, 2012.</ref><ref>{{YouTube|KXpZ6B1YB_k|The KITTI Vision Benchmark Suite}} {{ref-en}}</ref>
|<ref>Geiger, Andreas, Philip Lenz, and Raquel Urtasun. "[http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf Are we ready for autonomous driving? the kitti vision benchmark suite] {{Webarchive|url=https://web.archive.org/web/20181222224429/http://www.webmail.cvlibs.net/publications/Geiger2012CVPR.pdf |date=22 грудня 2018 }}." ''Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on''. IEEE, 2012.</ref><ref>Sturm, Jürgen, et al. "[http://jsturm.de/publications/data/sturm12iros.pdf A benchmark for the evaluation of RGB-D SLAM systems] {{Webarchive|url=https://web.archive.org/web/20190712065954/http://jsturm.de/publications/data/sturm12iros.pdf |date=12 липня 2019 }}." ''Intelligent Robots and Systems (IROS), 2012 IEEE/RSJ International Conference on''. IEEE, 2012.</ref><ref>{{YouTube|KXpZ6B1YB_k|The KITTI Vision Benchmark Suite}} {{ref-en}}</ref>
Рядок 490: Рядок 582:
|-
|-
|Linnaeus 5 dataset
|Linnaeus 5 dataset
|Зображення 5 класів предметів.
|Images of 5 classes of objects.
|Класи позначені, створені розділи навчальних наборів.
|Classes labelled, training set splits created.
|8000
|8000
|Зображення
|Images
|Класифікація
|Classification
|2017
|2017
|<ref>Chaladze, G., Kalatozishvili, L. (2017).&nbsp;''Linnaeus 5 dataset''.&nbsp;''Chaladze.com''. Retrieved 13 November 2017, from http://chaladze.com/l5/ {{Webarchive|url=https://web.archive.org/web/20190825115900/http://chaladze.com/l5/ |date=25 серпня 2019 }}</ref>
|<ref>Chaladze, G., Kalatozishvili, L. (2017).&nbsp;''Linnaeus 5 dataset''.&nbsp;''Chaladze.com''. Retrieved 13 November 2017, from http://chaladze.com/l5/ {{Webarchive|url=https://web.archive.org/web/20190825115900/http://chaladze.com/l5/ |date=25 серпня 2019 }}</ref>
Рядок 500: Рядок 592:
|-
|-
|FieldSAFE
|FieldSAFE
|Мультимодальний набір даних для виявлення перешкод у сільському господарстві, включаючи стереокамеру, тепловізійну камеру, веб-камеру, 360-градусну камеру, лідар, радар і точну локалізацію.
|Multi-modal dataset for obstacle detection in agriculture including stereo camera, thermal camera, web camera, 360-degree camera, lidar, radar, and precise localization.
|Класи, позначені географічно.
|Classes labelled geographically.
|>400 GB of data
|>400 GB of data
|Зображення та тривимірні хмари точок
|Images and 3D point clouds
|Класифікація, виявлення об'єктів, локалізація об'єктів
|Classification, object detection, object localization
|2017
|2017
|<ref>{{cite journal | last1 = Kragh | first1 = Mikkel F. | display-authors = et al | year = 2017 | title = FieldSAFE – Dataset for Obstacle Detection in Agriculture | url = https://vision.eng.au.dk/fieldsafe | journal = Sensors | volume = 17 | issue = 11 | pages = 2579 | doi = 10.3390/s17112579 | pmid = 29120383 | pmc = 5713196 | accessdate = 7 вересня 2019 | archive-date = 31 жовтня 2018 | archive-url = https://web.archive.org/web/20181031091207/https://vision.eng.au.dk/fieldsafe/ }}</ref>
|<ref>{{cite journal | last1 = Kragh | first1 = Mikkel F. | display-authors = et al | year = 2017 | title = FieldSAFE – Dataset for Obstacle Detection in Agriculture | url = https://vision.eng.au.dk/fieldsafe | journal = Sensors | volume = 17 | issue = 11 | pages = 2579 | doi = 10.3390/s17112579 | pmid = 29120383 | pmc = 5713196 | accessdate = 7 вересня 2019 | archive-date = 31 жовтня 2018 | archive-url = https://web.archive.org/web/20181031091207/https://vision.eng.au.dk/fieldsafe/ }}</ref>
Рядок 510: Рядок 602:
|-
|-
|11K Hands
|11K Hands
|11 076 зображень рук (1600 x 1200 пікселів) 190 суб’єктів різного віку від 18 до 75 років для розпізнавання статі та біометричної ідентифікації.
|11,076 hand images (1600 x 1200 pixels) of 190 subjects, of varying ages between 18 – 75 years old, for gender recognition and biometric identification.
|Немає
|None
|11,076 hand images
|11,076 hand images
|Images and (.mat, .txt, and .csv) label files
|Зображення та файли етикеток (.mat, .txt і .csv).
|Розпізнавання статі та біометрична ідентифікація
|Gender recognition and biometric identification
|2017
|2017
|<ref>{{cite arxiv|last=Afifi|first=Mahmoud|date=2017-11-12|title=Gender recognition and biometric identification using a large dataset of hand images|eprint=1711.04322|class=cs.CV}}</ref>
|<ref>{{cite arxiv|last=Afifi|first=Mahmoud|date=2017-11-12|title=Gender recognition and biometric identification using a large dataset of hand images|eprint=1711.04322|class=cs.CV}}</ref>
Рядок 520: Рядок 612:
|-
|-
|CORe50
|CORe50
|Спеціально розроблена для безперервного/довічного навчання та розпізнавання об’єктів, це колекція з понад 500 відео (30 кадрів в секунду) із 50 домашніми об’єктами, які належать до 10 різних категорій.
|Specifically designed for Continuous/Lifelong Learning and Object Recognition, is a collection of more than 500 videos (30fps) of 50 domestic objects belonging to 10 different categories.
|Позначені класи, розділи навчальних наборів створені на основі 3-х шляхового тесту для кількох запусків.
|Classes labelled, training set splits created based on a 3-way, multi-runs benchmark.
|164,866 RBG-D images
|164,866 RBG-D images
|images (.png or .pkl)
|зображення (.png або .pkl)
and (.pkl, .txt, .tsv) label files
та файли етикеток (.pkl, .txt, .tsv).
|Класифікація, розпізнавання об'єктів
|Classification, Object recognition
|2017
|2017
|<ref>{{Cite arxiv|last=Lomonaco|first=Vincenzo|last2=Maltoni|first2=Davide|date=2017-10-18|title=CORe50: a New Dataset and Benchmark for Continuous Object Recognition|eprint=1705.03550|class=cs.CV}}</ref>
|<ref>{{Cite arxiv|last=Lomonaco|first=Vincenzo|last2=Maltoni|first2=Davide|date=2017-10-18|title=CORe50: a New Dataset and Benchmark for Continuous Object Recognition|eprint=1705.03550|class=cs.CV}}</ref>
|V. Lomonaco and D. Maltoni
|V. Lomonaco and D. Maltoni
|-
|OpenLORIS-Object
|Набір даних Lifelong/Continual Robotic Vision (OpenLORIS-Object), зібраний реальними роботами, встановленими з кількома датчиками високої роздільної здатності, включає колекцію з 121 екземпляра об’єктів (1-а версія набору даних, 40 категорій предметів повсякденної потреби в 20 сценах). У наборі даних ретельно враховано 4 фактори середовища для різних сцен, включаючи освітлення, оклюзію, розмір у пікселях об’єкта та безлад, і чітко визначає рівні складності кожного фактора.
|Позначені класи, розділи набору для навчання/перевірки/тестування, створених за допомогою сценаріїв тесту.
|1 106 424 зображення RBG-D
|зображення (.png і .pkl)
та файли етикеток (.pkl).
|Класифікація, розпізнавання об'єктів протягом усього життя, робототехнічне бачення
|2019
|<ref>{{Cite news|title=OpenLORIS-Object: A Robotic Vision Dataset and Benchmark for Lifelong Deep Learning|url=http://arxiv.org/abs/1911.06487|work=arXiv:1911.06487 [cs, stat]|date=2020-03-06|accessdate=2022-05-28|first=Qi|last=She|first2=Fan|last2=Feng|first3=Xinyue|last3=Hao|first4=Qihan|last4=Yang|first5=Chuanlin|last5=Lan|first6=Vincenzo|last6=Lomonaco|first7=Xuesong|last7=Shi|first8=Zhengwei|last8=Wang|first9=Yao|last9=Guo}}</ref>
|Q. She et al.
|-
|-
|THz and thermal video data set
|THz and thermal video data set
|Цей мультиспектральний набір даних включає терагерцові, теплові, візуальні, ближні інфрачервоні та тривимірні відео об’єктів, прихованих під одягом людей.
|This multispectral data set includes terahertz, thermal, visual, near infrared, and three-dimensional videos of objects hidden under people's clothes.
|Надаються таблиці 3D пошуку, які дозволяють проектувати зображення на тривимірні хмари точок.
|3D lookup tables are provided that allow you to project images onto 3D point clouds.
|More than 20 videos. The duration of each video is about 85 seconds (about 345 frames).
|More than 20 videos. The duration of each video is about 85 seconds (about 345 frames).
|AP2J
|AP2J
|Експерименти з виявленням прихованих об'єктів
|Experiments with hidden object detection
|2019
|2019
|<ref>{{Cite news|title=Object-oriented logic programming of 3D intelligent video surveillance: The problem statement|url=http://dx.doi.org/10.1109/isie.2017.8001491|publisher=IEEE|work=2017 IEEE 26th International Symposium on Industrial Electronics (ISIE)|date=2017-06|accessdate=2022-05-28|doi=10.1109/isie.2017.8001491|first=Alexei A.|last=Morozov|first2=Olga S.|last2=Sushkova|first3=Alexander F.|last3=Polupanov}}</ref><ref>{{Cite news|title=Development of a Method of Terahertz Intelligent Video Surveillance Based on the Semantic Fusion of Terahertz and 3D Video Images|url=http://dx.doi.org/10.18287/1613-0073-2019-2391-134-143|publisher=IP Zaitsev V.D.|work=Proceedings of the V International conference Information Technology and Nanotechnology 2019|date=2019|accessdate=2022-05-28|doi=10.18287/1613-0073-2019-2391-134-143|first=Alexei|last=Morozov|first2=Olga|last2=Sushkova|first3=Ivan|last3=Kershner|first4=Alexander|last4=Polupanov}}</ref>
|<ref>{{cite web|url=http://www.fullvision.ru/monitoring/description_eng.php|last1=Morozov|first1=Alexei|last2=Sushkova|first2=Olga|date=2019-06-13|title=THz and thermal video data set|publisher=IRE RAS|website=Development of the multi-agent logic programming approach to a human behaviour analysis in a multi-channel video surveillance|access-date=2019-07-19|location=Moscow|archive-date=2 вересня 2019|archive-url=https://web.archive.org/web/20190902212829/http://www.fullvision.ru/monitoring/description_eng.php}}</ref><ref>{{cite journal|last1=Morozov|first1=Alexei|last2=Sushkova|first2=Olga|last3=Kershner|first3=Ivan|last4=Polupanov|first4=Alexander|date=2019-07-09|title=Development of a method of terahertz intelligent video surveillance based on the semantic fusion of terahertz and 3D video images|url=http://ceur-ws.org/Vol-2391/paper19.pdf|journal=CEUR|volume=2391|pages=paper19|access-date=2019-07-19|archive-date=14 липня 2019|archive-url=https://web.archive.org/web/20190714193936/http://ceur-ws.org/Vol-2391/paper19.pdf}}</ref>
|Alexei A. Morozov and Olga S. Sushkova
|Alexei A. Morozov and Olga S. Sushkova
|}
|}


=== Почерк і розпізнавання символів ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Artificial Characters Dataset
|Штучно згенеровані дані, що описують структуру 10 великих англійських літер.
|Координати намальованих ліній задані як цілі числа. Різні інші особливості.
|6000
|Текст
|[[Розпізнавання рукописного введення|Розпізнавання рукописного тексту]], класифікація
|1992
|<ref>{{Cite book
|url=http://worldcat.org/oclc/927619906
|title=Knowledge engineering : building cognitive assistants for evidence-based reasoning
|last=author.
|first=Tecuci, Gheorghe,
|isbn=978-1-107-12256-7
|oclc=927619906
}}</ref>
|H. Guvenir et al.
|-
|Letter Dataset
|Верхні друковані літери.
|З усіх зображень витягується 17 функцій.
|20,000
|Текст
|OCR, класифікація
|1991
|<ref>{{Cite news|title=Letter recognition using Holland-style adaptive classifiers|url=http://dx.doi.org/10.1007/bf00114162|work=Machine Learning|date=1991-03|accessdate=2022-05-20|issn=0885-6125|doi=10.1007/bf00114162|pages=161–182|volume=6|issue=2|first=Peter W.|last=Frey|first2=David J.|last2=Slate}}</ref><ref>{{Cite news|title=Improved learning of Riemannian metrics for exploratory analysis|url=https://linkinghub.elsevier.com/retrieve/pii/S0893608004001558|work=Neural Networks|date=2004-10|accessdate=2022-05-20|doi=10.1016/j.neunet.2004.06.008|pages=1087–1100|volume=17|issue=8-9|language=en|first=Jaakko|last=Peltonen|first2=Arto|last2=Klami|first3=Samuel|last3=Kaski}}</ref>
|D. Slate et al.
|-
|CASIA-HWDB
|База даних рукописних [[:en:Chinese_characters|китайських символів]] офлайн. 3755 класів у наборі символів [[:en:GB_2312|GB 2312]].
|Зображення в сірому кольорі з фоновими пікселями, позначені як 255.
|1,172,907
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|2009
|<ref name=":1">{{Cite news|title=Online and offline handwritten Chinese character recognition: Benchmarking on new databases|url=https://linkinghub.elsevier.com/retrieve/pii/S0031320312002919|work=Pattern Recognition|date=2013-01|accessdate=2022-05-20|doi=10.1016/j.patcog.2012.06.021|pages=155–162|volume=46|issue=1|language=en|first=Cheng-Lin|last=Liu|first2=Fei|last2=Yin|first3=Da-Han|last3=Wang|first4=Qiu-Feng|last4=Wang}}</ref>
|CASIA
|-
|CASIA-OLHWDB
|База даних рукописних китайських ієрогліфів онлайн, зібрана за допомогою ручки Anoto на папері. 3755 класів у наборі символів [[:en:GB_2312|GB 2312]].
|Надає послідовності координат штрихів.
|1,174,364
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|2009
|<ref>{{Cite news|title=CASIA-OLHWDB1: A Database of Online Handwritten Chinese Characters|url=https://ieeexplore.ieee.org/document/5277629/|work=2009 10th International Conference on Document Analysis and Recognition|date=2009-07|accessdate=2022-05-20|doi=10.1109/ICDAR.2009.163|pages=1206–1210|first=Da-Han|last=Wang|first2=Cheng-Lin|last2=Liu|first3=Jin-Lun|last3=Yu|first4=Xiang-Dong|last4=Zhou}}</ref><ref name=":1"/>
|CASIA
|-
|Character Trajectories Dataset
|Марковані зразки траєкторій кінчика пера для людей, які пишуть прості символи.
|3-dimensional pen tip velocity trajectory matrix for each sample
|2858
|Текст
|Розпізнавання рукописного тексту, класифікація
|2008
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/11840930_66
|title=Extracting Motion Primitives from Natural Handwriting Data
|last=Williams
|first=Ben H.
|last2=Toussaint
|first2=Marc
|last3=Storkey
|first3=Amos J.
|date=2006
|series=Artificial Neural Networks – ICANN 2006
|publisher=Springer Berlin Heidelberg
|location=Berlin, Heidelberg
|pages=634–643
|isbn=978-3-540-38871-5
}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/40434775
|title=1998 IEEE/ACM International Conference on Computer-Aided Design : digest of technical papers : November 8-12, 1998, San Jose, California
|last=Calif.)
|first=IEEE/ACM International Conference on Computer-Aided Design (1998 : San Jose,
|date=1998
|publisher=IEEE Computer Society Press
|isbn=1-58113-008-2
|oclc=40434775
}}</ref>
|B. Williams
|-
|Chars74K Dataset
|Розпізнавання символів у природних зображеннях символів, які використовуються як англійською, так і каннадською
|Тривимірна матриця траєкторій швидкості кінчика пера для кожного зразка
|74,107
|
|Розпізнавання символів, розпізнавання рукописного тексту, OCR, класифікація
|2009
|<ref>{{Cite book
|url=http://worldcat.org/oclc/555471615
|title=Recent issues in pattern analysis and recognition
|last=V.
|first=Cantoni,
|date=1989
|publisher=Springer-Verlag
|oclc=555471615
}}</ref>
|T. de Campos
|-
|EMNIST dataset
|Рукописні символи від 3600 авторів
|Похідне від спеціальної бази даних NIST 19. Перетворено на зображення розміром 28x28 пікселів, що відповідають набору даних MNIST.<ref>{{Cite news|title=EMNIST: an extension of MNIST to handwritten letters|url=http://arxiv.org/abs/1702.05373|work=arXiv:1702.05373 [cs]|date=2017-02-17|accessdate=2022-05-27|first=Gregory|last=Cohen|first2=Saeed|last2=Afshar|first3=Jonathan|last3=Tapson|first4=André|last4=van Schaik}}</ref>
|800,000
|Зображення
|розпізнавання символів, класифікація, розпізнавання почерку
|2016
|EMNIST dataset<ref>{{Cite book
|url=http://worldcat.org/oclc/1106257270
|title=EMNIST: an extension of MNIST to handwritten letters
|last=André
|first=Cohen, Gregory Afshar, Saeed Tapson, Jonathan van Schaik,
|date=2017-02-17
|oclc=1106257270
}}</ref>
Documentation<ref>{{Cite news|title=EMNIST: an extension of MNIST to handwritten letters|url=http://arxiv.org/abs/1702.05373|work=arXiv:1702.05373 [cs]|date=2017-02-17|accessdate=2022-05-20|first=Gregory|last=Cohen|first2=Saeed|last2=Afshar|first3=Jonathan|last3=Tapson|first4=André|last4=van Schaik}}</ref>
|Gregory Cohen, et al
|-
|UJI Pen Characters Dataset
|Ізольовані рукописні символи
|Дано координати положення пера як символи.
|11,640
|Текст
|Розпізнавання рукописного тексту, класифікація
|2009
|<ref>{{Cite web|title=Figure 4: Samples of handwritten isolated Arabic characters.|url=http://dx.doi.org/10.7717/peerjcs.955/fig-4|website=dx.doi.org|accessdate=2022-05-20}}</ref><ref>{{Cite book
|url=http://dx.doi.org/10.1201/b12989-9
|title=One-Shot Learning Considerations
|date=2012-11-20
|series=Internet-Scale Pattern Recognition
|publisher=Chapman and Hall/CRC
|pages=53–66
}}</ref>
|F. Prat et al.
|-
|Gisette Dataset
|Зразки почерку з 4 і 9 символів, які часто плутають.
|Функції, витягнуті з зображень, розділені на train/test, розмір зображень рукописного введення нормалізовано.
|13,500
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|2003
|<ref>{{Cite web|title=Figure 10: Combination the result of feature selection and WGCNA.|url=http://dx.doi.org/10.7717/peerj.8456/fig-10|website=dx.doi.org|accessdate=2022-05-20}}</ref>
|Yann LeCun et al.
|-
|Omniglot dataset
|1623 різних рукописних символи з 50 різних алфавітів.
|Марковані вручну.
|38,300
|Зображення,
текст
|Класифікація, одноразове навчання
|2015
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1113542889
|title=Artificial General Intelligence : 8th International Conference, AGI 2015, AGI 2015, Berlin, Germany, July 22-25, 2015, Proceedings
|last=editor
|first=Bieger, Jordi., editor Goertzel, Ben., editor Potapov, Alexey.,
|isbn=3-319-21365-2
|oclc=1113542889
}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/1268260200
|title=Artificial neural networks and machine learning -- ICANN 2021 : 30th International Conference on Artificial Neural Networks, Bratislava, Slovakia, September 14-17, 2021, Proceedings.
|last=Online)
|first=International Conference on Artificial Neural Networks (European Neural Network Society) (30th : 2021 :
|isbn=978-3-030-86340-1
|oclc=1268260200
}}</ref>
|[[Американська асоціація сприяння розвитку науки|American Association for the Advancement of Science]]
|-
|[[:en:MNIST_database|MNIST database]]
|База даних рукописних цифр.
|Марковані вручну.
|60,000
|Зображення,
текст
|Класифікація
|1998
|<ref>{{Cite news|title=Gradient-based learning applied to document recognition|url=http://ieeexplore.ieee.org/document/726791/|work=Proceedings of the IEEE|date=Nov./1998|accessdate=2022-05-20|doi=10.1109/5.726791|pages=2278–2324|volume=86|issue=11|first=Y.|last=Lecun|first2=L.|last2=Bottou|first3=Y.|last3=Bengio|first4=P.|last4=Haffner}}</ref><ref>{{Cite news|title=Improved method of handwritten digit recognition tested on MNIST database|url=https://linkinghub.elsevier.com/retrieve/pii/S0262885604000721|work=Image and Vision Computing|date=2004-10|accessdate=2022-05-20|doi=10.1016/j.imavis.2004.03.008|pages=971–981|volume=22|issue=12|language=en|first=Ernst|last=Kussul|first2=Tatiana|last2=Baidyk}}</ref>
|[[Національний інститут стандартів і технології|National Institute of Standards and Technology]]
|-
|Optical Recognition of Handwritten Digits Dataset
|Нормовані растрові зображення рукописних даних.
|Розмір нормалізовано та зіставлено на растрові зображення.
|5620
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|1998
|<ref name=":2">{{Cite news|title=Methods of combining multiple classifiers and their applications to handwriting recognition|url=http://ieeexplore.ieee.org/document/155943/|work=IEEE Transactions on Systems, Man, and Cybernetics|date=May-June/1992|accessdate=2022-05-20|doi=10.1109/21.155943|pages=418–435|volume=22|issue=3|first=L.|last=Xu|first2=A.|last2=Krzyzak|first3=C.Y.|last3=Suen}}</ref>
|E. Alpaydin et al.
|-
|Pen-Based Recognition of Handwritten Digits Dataset
|Рукописні цифри на електронній ручці-планшеті.
|Витягуються вектори ознак для рівномірного розміщення.
|10,992
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|1998
|<ref>{{Cite news|title=Combining multiple representations and classifiers for pen-based handwritten digit recognition|url=http://dx.doi.org/10.1109/icdar.1997.620583|publisher=IEEE Comput. Soc|work=Proceedings of the Fourth International Conference on Document Analysis and Recognition|accessdate=2022-05-20|doi=10.1109/icdar.1997.620583|first=F.|last=Alimoglu|first2=E.|last2=Alpaydin}}</ref><ref>{{Cite news|title=Linear dimensionality reduction using relevance weighted LDA|url=https://linkinghub.elsevier.com/retrieve/pii/S0031320304003619|work=Pattern Recognition|date=2005-04|accessdate=2022-05-20|doi=10.1016/j.patcog.2004.09.005|pages=485–493|volume=38|issue=4|language=en|first=E.K.|last=Tang|first2=P.N.|last2=Suganthan|first3=X.|last3=Yao|first4=A.K.|last4=Qin}}</ref>
|E. Alpaydin et al.
|-
|Semeion Handwritten Digit Dataset
|Рукописні цифри від 80 осіб.
|Усі рукописні цифри нормалізовано за розміром і відображено в одній сітці.
|1593
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|2008
|<ref>{{Cite news|url=https://pages.ucsd.edu/~ztu/publication/iccv11_sparsemetric.pdf|title=Hong, Yi, et al}}</ref>
|T. Srl
|-
|HASYv2
|Рукописні математичні символи
|Усі символи відцентровані та мають розмір 32px x 32px.
|168233
|Зображення,
текст
|Класифікація
|2017
|<ref>{{Cite news|title=[Endocrinologic peculiarities of the course of pregnancy and labor in primaparous women of the older age groups]|url=https://pubmed.ncbi.nlm.nih.gov/1701|work=Pediatriia Akusherstvo I Ginekologiia|date=1975|accessdate=2022-05-20|issn=0031-4048|pmid=1701|pages=41–44|issue=5|first=K. I.|last=Drahan}}</ref>
|Martin Thoma
|-
|Noisy Handwritten Bangla Dataset
|Включає набір даних рукописних цифр (10 класів) і базовий набір даних символів (50 класів), кожен набір даних має три типи шуму: білий гаусів, розмиття в русі та знижену контрастність.
|Усі зображення відцентровані та мають розмір 32x32.
|Numeral Dataset:
23330,

Character Dataset:

76000
|Зображення,
текст
|Розпізнавання рукописного тексту, класифікація
|2017
|<ref>{{Cite news|title=The jumping mechanism of Xenopsylla cheopis. III. Execution of the jump and activity|url=https://pubmed.ncbi.nlm.nih.gov/1806|work=Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences|date=1975-10-30|accessdate=2022-05-20|issn=0962-8436|pmid=1806|doi=10.1098/rstb.1975.0064|pages=499–515|volume=271|issue=914|first=M.|last=Rothschild|first2=J.|last2=Schlein|first3=K.|last3=Parker|first4=C.|last4=Neville|first5=S.|last5=Sternberg}}</ref><ref>{{Cite news|title=PCGAN-CHAR: Progressively Trained Classifier Generative Adversarial Networks for Classification of Noisy Handwritten Bangla Characters|url=https://link.springer.com/chapter/10.1007/978-3-030-34058-2_1|publisher=Springer International Publishing|work=Digital Libraries at the Crossroads of Digital Information for the Future|date=2019|accessdate=2022-05-27|isbn=978-3-030-34058-2|doi=10.1007/978-3-030-34058-2_1|pages=3–15|language=en|first=Qun|last=Liu|first2=Edward|last2=Collier|first3=Supratik|last3=Mukhopadhyay|editor-first=Adam|editor-last=Jatowt}}</ref>
|M. Karki et al.
|}

=== Аерофотознімки ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|iSAID: Instance Segmentation in Aerial Images Dataset
|
|Точна анотація на рівні екземпляра, виконана професійними анотаторами, перевірена та підтверджена експертними анотаторами, які відповідають чітко визначеним інструкціям.
|655,451 (15 classes)
|Зображення, jpg, json
|Повітряна класифікація, виявлення об'єктів, сегментація екземплярів
|2019
|<ref>{{Cite web|title=iSAID|url=https://captain-whu.github.io/iSAID/index.html|website=captain-whu.github.io|accessdate=2022-05-27}}</ref><ref>{{Cite web|title=iSAID|url=https://captain-whu.github.io/iSAID/index.html|website=captain-whu.github.io|accessdate=2022-05-27}}</ref>
|Syed Waqas Zamir,
Aditya Arora,

Akshita Gupta,

Salman Khan,

Guolei Sun,

Fahad Shahbaz Khan, Fan Zhu,

Ling Shao, Gui-Song Xia, Xiang Bai
|-
|Aerial Image Segmentation Dataset
|80 аерофотознімків високої роздільної здатності з просторовою роздільною здатністю від 0,3 до 1,0.
|Зображення сегментовані вручну.
|80
|Зображення
|Повітряна класифікація, виявлення об'єктів
|2013
|<ref name=":3">{{Cite news|title=Integrating pedestrian simulation, tracking and event detection for crowd analysis|url=http://dx.doi.org/10.1109/iccvw.2011.6130237|publisher=IEEE|work=2011 IEEE International Conference on Computer Vision Workshops (ICCV Workshops)|date=2011-11|accessdate=2022-05-20|doi=10.1109/iccvw.2011.6130237|first=Matthias|last=Butenuth|first2=Florian|last2=Burkert|first3=Florian|last3=Schmidt|first4=Stefan|last4=Hinz|first5=Dirk|last5=Hartmann|first6=Angelika|last6=Kneidl|first7=Andre|last7=Borrmann|first8=Beril|last8=Sirmacek}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/1113880051
|title=Computational intelligence in pattern recognition : proceedings of CIPR 2019
|last=India)
|first=CIPR (Conference) (1st : 2019 : Sibpur,
|isbn=978-981-13-9042-5
|oclc=1113880051
}}</ref>
|J. Yuan et al.
|-
|KIT AIS Data Set
|Кілька позначених наборів навчальних та оцінювальних даних аерофотознімків натовпу.
|Зображення, позначені вручну, щоб показувати шляхи людей через натовп
|~ 150
|Зображення з доріжками
|Відстеження людей, повітряне спостереження
|2012
|<ref name=":3"/><ref>{{Cite news|title=Low level crowd analysis using frame-wise normalized feature for people counting|url=http://dx.doi.org/10.1109/wifs.2012.6412657|publisher=IEEE|work=2012 IEEE International Workshop on Information Forensics and Security (WIFS)|date=2012-12|accessdate=2022-05-20|doi=10.1109/wifs.2012.6412657|first=Hajer|last=Fradi|first2=Jean-Luc|last2=Dugelay}}</ref>
|M. Butenuth et al.
|-
|Wilt Dataset
|Дані дистанційного зондування хворих дерев та іншого ґрунтового покриву.
|Вилучено різні функції.
|4899
|Зображення
|Класифікація, виявлення повітряних об'єктів
|2014
|<ref>{{Cite news|title=A hybrid pansharpening approach and multiscale object-based image analysis for mapping diseased pine and oak trees|url=http://dx.doi.org/10.1080/01431161.2013.810825|work=International Journal of Remote Sensing|date=2013-06-27|accessdate=2022-05-20|issn=0143-1161|doi=10.1080/01431161.2013.810825|pages=6969–6982|volume=34|issue=20|first=Brian Alan|last=Johnson|first2=Ryutaro|last2=Tateishi|first3=Nguyen Thanh|last3=Hoan}}</ref><ref>{{Cite news|title=A new classification model for a class imbalanced data set using genetic programming and support vector machines: case study for wilt disease classification|url=http://www.tandfonline.com/doi/full/10.1080/2150704X.2015.1062159|work=Remote Sensing Letters|date=2015-07-03|accessdate=2022-05-20|issn=2150-704X|doi=10.1080/2150704X.2015.1062159|pages=568–577|volume=6|issue=7|language=en|first=Muhammad Syafiq|last=Mohd Pozi|first2=Md Nasir|last2=Sulaiman|first3=Norwati|last3=Mustapha|first4=Thinagaran|last4=Perumal}}</ref>
|B. Johnson
|-
|MASATI dataset
|Морські сцени оптичних аерофотознімків із видимого спектру. Він містить кольорові зображення в динамічних морських середовищах, кожне зображення може містити одну або кілька цілей за різних погодних умов і умов освітлення.
|Обмежувальні рамки та маркування об’єктів.
|7389
|Зображення
|Класифікація, виявлення повітряних об'єктів
|2018
|<ref>{{Cite book
|url=http://worldcat.org/oclc/971084912
|title=Eighth International Conference on Digital Image Processing (ICDIP 2016) : 20-23 May 2016, Chengdu, China
|last=China)
|first=International Conference on Digital Image Processing (8th : 2016 : Chengdu,
|isbn=1-5106-0504-5
|oclc=971084912
}}</ref><ref>{{Cite web|title=MASATI dataset - MAritime SATellite Imagery dataset|url=https://www.iuii.ua.es/datasets/masati/|website=www.iuii.ua.es|accessdate=2022-05-20|language=en|first=Antonio-Javier|last=Gallego}}</ref>
|A.-J. Gallego et al.
|-
|Forest Type Mapping Dataset
|Супутникові зображення лісів Японії.
|Вилучено діапазони довжин хвилі зображення.
|326
|Текст
|Класифікація
|2015
|<ref>{{Cite news|title=Automatic Ship Classification from Optical Aerial Images with Convolutional Neural Networks|url=http://dx.doi.org/10.3390/rs10040511|work=Remote Sensing|date=2018-03-24|accessdate=2022-05-20|issn=2072-4292|doi=10.3390/rs10040511|pages=511|volume=10|issue=4|first=Antonio-Javier|last=Gallego|first2=Antonio|last2=Pertusa|first3=Pablo|last3=Gil}}</ref><ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-81-322-2757-1_23
|title=Forest Type Classification: A Hybrid NN-GA Model Based Approach
|last=Chatterjee
|first=Sankhadeep
|last2=Ghosh
|first2=Subhodeep
|last3=Dawn
|first3=Subham
|last4=Hore
|first4=Sirshendu
|last5=Dey
|first5=Nilanjan
|date=2016
|series=Advances in Intelligent Systems and Computing
|publisher=Springer India
|location=New Delhi
|pages=227–236
|isbn=978-81-322-2756-4
}}</ref>
|B. Johnson
|-
|[[:en:Overhead_Imagery_Research_Data_Set|Overhead Imagery Research Data Set]]
|Коментовані зображення накладних. Зображення з кількома об'єктами.
|Понад 30 анотацій і понад 60 статистичних даних, які описують ціль у контексті зображення.
|1000
|Зображення, текст
|Класифікація
|2009
|<ref>{{Cite news|title=A combinatorial method for tracing objects using semantics of their shape|url=http://dx.doi.org/10.1109/aipr.2010.5759716|publisher=IEEE|work=2010 IEEE 39th Applied Imagery Pattern Recognition Workshop (AIPR)|date=2010-10|accessdate=2022-05-20|doi=10.1109/aipr.2010.5759716|first=Carl|last=Diegert}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/877840527
|title=Small Target Detection combining Foreground and Background Manifolds
|last=Frédéric
|first=Razakarivony, Sebastien Jurie,
|oclc=877840527
}}</ref>
|F. Tanner et al.
|-
|SpaceNet
|SpaceNet — це сукупність комерційних супутникових зображень і позначених навчальних даних.
|Файли GeoTiff і GeoJSON, що містять сліди будівлі.
|>17533
|Зображення
|Класифікація, ідентифікація об'єкта
|2017
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-1-4842-6919-0_3
|title=Getting Started with Databricks
|last=Ilijason
|first=Robert
|date=2021
|series=Getting Started with Databricks
|publisher=Apress
|location=Berkeley, CA
|isbn=978-1-4842-6919-0
}}</ref><ref>{{Cite news|title=Integrating edge/boundary priors with classification scores for building detection in very high resolution data|url=http://ieeexplore.ieee.org/document/8127705/|publisher=IEEE|work=2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)|date=2017-07|accessdate=2022-05-20|isbn=978-1-5090-4951-6|doi=10.1109/IGARSS.2017.8127705|pages=3309–3312|first=Maria|last=Vakalopoulou|first2=Norbert|last2=Bus|first3=Konstantinos|last3=Karantzalos|first4=Nikos|last4=Paragios}}</ref><ref>{{Cite news|title=Integrating edge/boundary priors with classification scores for building detection in very high resolution data|url=https://ieeexplore.ieee.org/document/8127705/|work=2017 IEEE International Geoscience and Remote Sensing Symposium (IGARSS)|date=2017-07|accessdate=2022-05-27|doi=10.1109/IGARSS.2017.8127705|pages=3309–3312|first=Maria|last=Vakalopoulou|first2=Norbert|last2=Bus|first3=Konstantinos|last3=Karantzalos|first4=Nikos|last4=Paragios}}</ref>
|[[:en:DigitalGlobe|DigitalGlobe, Inc.]]
|-
|UC Merced Land Use Dataset
|Ці зображення були вручну витягнуті з великих зображень із колекції зображень міських районів Національної карти USGS для різних міських районів США.
|Це 21-класний набір зображень землекористування, призначений для дослідницьких цілей. Для кожного класу є 100 зображень.
|2,100
|Зображення фішки розміром 256x256, 30 см (1 фут) GSD
|Класифікація земельного покриву
|2010
|<ref>{{Cite news|title=Bag-of-visual-words and spatial extensions for land-use classification|url=https://doi.org/10.1145/1869790.1869829|publisher=Association for Computing Machinery|work=Proceedings of the 18th SIGSPATIAL International Conference on Advances in Geographic Information Systems|date=2010-11-02|accessdate=2022-05-27|isbn=978-1-4503-0428-3|doi=10.1145/1869790.1869829|pages=270–279|first=Yi|last=Yang|first2=Shawn|last2=Newsam}}</ref>
|Yi Yang and Shawn Newsam
|-
|SAT-4 Airborne Dataset
|Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP).
|SAT-4 має чотири широкі класи ґрунтового покриву, включає безплідні землі, дерева, пасовища та клас, який складається з усіх класів ґрунтового покриву, крім трьох вищезазначених.
|500,000
|Зображення
|Класифікація
|2015
|<ref name=":4">{{Cite news|title=DeepSat: a learning framework for satellite imagery|url=https://dl.acm.org/doi/10.1145/2820783.2820816|publisher=ACM|work=Proceedings of the 23rd SIGSPATIAL International Conference on Advances in Geographic Information Systems|date=2015-11-03|accessdate=2022-05-20|isbn=978-1-4503-3967-4|doi=10.1145/2820783.2820816|pages=1–10|language=en|first=Saikat|last=Basu|first2=Sangram|last2=Ganguly|first3=Supratik|last3=Mukhopadhyay|first4=Robert|last4=DiBiano|first5=Manohar|last5=Karki|first6=Ramakrishna|last6=Nemani}}</ref><ref>{{Cite news|title=DeepSat V2: feature augmented convolutional neural nets for satellite image classification|url=https://doi.org/10.1080/2150704X.2019.1693071|work=Remote Sensing Letters|date=2020-02-01|accessdate=2022-05-20|issn=2150-704X|doi=10.1080/2150704X.2019.1693071|pages=156–165|volume=11|issue=2|first=Qun|last=Liu|first2=Saikat|last2=Basu|first3=Sangram|last3=Ganguly|first4=Supratik|last4=Mukhopadhyay|first5=Robert|last5=DiBiano|first6=Manohar|last6=Karki|first7=Ramakrishna|last7=Nemani}}</ref>
|S. Basu et al.
|-
|SAT-6 Airborne Dataset
|Зображення було витягнуто з набору даних Національної програми зображення сільського господарства (NAIP).
|SAT-6 має шість широких класів ґрунтового покриву, включає безплідні землі, дерева, пасовища, дороги, будівлі та водойми.
|405,000
|Зображення
|Класифікація
|2015
|<ref name=":4"/><ref>{{Cite news|title=DeepSat V2: feature augmented convolutional neural nets for satellite image classification|url=https://www.tandfonline.com/doi/full/10.1080/2150704X.2019.1693071|work=Remote Sensing Letters|date=2020-02-01|accessdate=2022-05-20|issn=2150-704X|doi=10.1080/2150704X.2019.1693071|pages=156–165|volume=11|issue=2|language=en|first=Qun|last=Liu|first2=Saikat|last2=Basu|first3=Sangram|last3=Ganguly|first4=Supratik|last4=Mukhopadhyay|first5=Robert|last5=DiBiano|first6=Manohar|last6=Karki|first7=Ramakrishna|last7=Nemani}}</ref>
|S. Basu et al.
|}

=== Інші зображення ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|NRC-GAMMA
|Новий еталонний набір зображень газового лічильника
|Жодного
|28,883
|Зображення, етикетка
|Класифікація
|2021
|<ref>{{Cite news|title=The influence of oxyhemoglobin affinity on tissue oxygen consumption|url=https://pubmed.ncbi.nlm.nih.gov/2111|work=Annals of Surgery|date=1976-02|accessdate=2022-05-20|issn=0003-4932|pmc=1344074|pmid=2111|doi=10.1097/00000658-197602000-00008|pages=130–135|volume=183|issue=2|first=A. H.|last=Harken|first2=M.|last2=Woods}}</ref><ref>{{Citation|title=The gas meter image dataset (NRC-GAMMA)|url=https://nrc-digital-repository.canada.ca/eng/view/object/?id=ba1fc493-e65f-4c0a-ab31-ecbcdf00bfa4|publisher=National Research Council of Canada|date=2021-11-19|accessdate=2022-05-20|doi=10.4224/3c8s-z290|language=en|first=Ashkan|last=Ebadi|first2=Patrick|last2=Paul|first3=Sofia|last3=Auer|first4=Stéphane|last4=Tremblay}}</ref>
|A. Ebadi, P. Paul, S. Auer, & S. Tremblay
|-
|The SUPATLANTIQUE dataset
|Зображення відсканованих офіційних документів та документів Вікіпедії
|Жодного
|4908
|TIFF/pdf
|Ідентифікація вихідного пристрою, виявлення підробок, класифікація,...
|2020
|<ref>{{Cite news|title=The Supatlantique Scanned Documents Database for Digital Image Forensics Purposes|url=http://dx.doi.org/10.1109/icip40778.2020.9190665|publisher=IEEE|work=2020 IEEE International Conference on Image Processing (ICIP)|date=2020-10|accessdate=2022-05-20|doi=10.1109/icip40778.2020.9190665|first=Chaima Ben|last=Rabah|first2=Gouenou|last2=Coatrieux|first3=Riadh|last3=Abdelfattah}}</ref>
|C. Ben Rabah et al.
|-
|Density functional theory quantum simulations of graphene
|Позначені зображення вихідних даних для моделювання графену
|Необроблені дані (у форматі HDF5) і вихідні мітки з квантового моделювання теорії функціональної щільності
|60744 тестових і 501473 навчальних файлів
|Марковані зображення
|Регресія
|2019
|<ref name=":5">{{Citation|title=Big graphene dataset|url=https://nrc-digital-repository.canada.ca/eng/view/object/?id=9f09901d-0736-4204-a35d-0c88ffb8da3b|publisher=National Research Council of Canada|date=2019-03-12|accessdate=2022-05-20|doi=10.4224/c8sc04578j.data|language=en|first=Kyle|last=Mills|first2=Isaac|last2=Tamblyn}}</ref>
|K. Mills & I. Tamblyn
|-
|Quantum simulations of an electron in a two dimensional potential well
|Позначені зображення вихідних даних для моделювання 2d квантової механіки
|Необроблені дані (у форматі HDF5) та вихідні мітки з квантового моделювання
|1,3 мільйона зображень
|Марковані зображення
|Регресія
|2017
|<ref>{{Citation|title=Quantum simulations of an electron in a two dimensional potential well|url=https://nrc-digital-repository.canada.ca/eng/view/object/?id=1343ae23-cebf-45c6-94c3-ddebdb2f23c6|publisher=National Research Council of Canada|date=2018-05-18|accessdate=2022-05-20|doi=10.4224/physreva.96.042113.data|language=en|first=Kyle|last=Mills|first2=Michael|last2=Spanner|first3=Isaac|last3=Tamblyn}}</ref>
|K. Mills, M.A. Spanner, & I. Tamblyn
|-
|MPII Cooking Activities Dataset
|Відео та зображення різних кулінарних заходів.
|Шляхи та напрямки діяльності, мітки, дрібнозернисте позначення руху, клас активності, вилучення та маркування нерухомих зображень.
|881,755 frames
|Марковані відео, зображення, текст
|Класифікація
|2012
|<ref name=":7">{{Cite news|title=A database for fine grained activity detection of cooking activities|url=https://ieeexplore.ieee.org/document/6247801/|work=2012 IEEE Conference on Computer Vision and Pattern Recognition|date=2012-06|accessdate=2022-05-20|doi=10.1109/CVPR.2012.6247801|pages=1194–1201|first=Marcus|last=Rohrbach|first2=Sikandar|last2=Amin|first3=Mykhaylo|last3=Andriluka|first4=Bernt|last4=Schiele}}</ref><ref>{{Cite news|title=The Language of Actions: Recovering the Syntax and Semantics of Goal-Directed Human Activities|url=http://dx.doi.org/10.1109/cvpr.2014.105|publisher=IEEE|work=2014 IEEE Conference on Computer Vision and Pattern Recognition|date=2014-06|accessdate=2022-05-20|doi=10.1109/cvpr.2014.105|first=Hilde|last=Kuehne|first2=Ali|last2=Arslan|first3=Thomas|last3=Serre}}</ref>
|M. Rohrbach et al.
|-
|FAMOS Dataset
|5000 унікальних мікроструктур, всі зразки були отримані 3 рази за допомогою двох різних камер.
|Оригінальні файли PNG, відсортовані за камерою, а потім за придбанням. Файли даних MATLAB з однією матрицею 16384 разів 5000 на камеру на одержання.
|30,000
|Файли зображень і .mat
|Аутентифікація
|2012
|<ref>{{Cite web|url=http://vision.unige.ch/publications/postscript/2012/2012.WIFS.database.pdf|title=Sviatoslav, Voloshynovskiy, et al.}}</ref>
|S. Voloshynovskiy, et al.
|-
|PharmaPack Dataset
|1000 унікальних класів з 54 зображеннями в класі.
|Маркування класів, багато локальних дескрипторів, таких як SIFT і aKaZE, і локальні агреатори функцій, як-от Fisher Vector (FV).
|54,000
|Файли зображень і .mat
|Дрібнозерниста класифікація
|2017
|<ref>{{Cite news|title=PharmaPack: Mobile fine-grained recognition of pharma packages|url=http://dx.doi.org/10.23919/eusipco.2017.8081543|publisher=IEEE|work=2017 25th European Signal Processing Conference (EUSIPCO)|date=2017-08|accessdate=2022-05-20|doi=10.23919/eusipco.2017.8081543|first=O.|last=Taran|first2=S.|last2=Rezaeifar|first3=O.|last3=Dabrowski|first4=J.|last4=Schlechten|first5=T.|last5=Holotyak|first6=S.|last6=Voloshynovskiy}}</ref>
|O. Taran and S. Rezaeifar, et al.
|-
|Stanford Dogs Dataset
|Зображення 120 порід собак з усього світу.
|Надаються розділи для навчання/тесту та анотації ImageNet.
|20,580
|Зображення, текст
|Дрібнозерниста класифікація
|2011
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1228414137
|title=FenceMask: A Data Augmentation Approach for Pre-extracted Image Features
|last=Xiang
|first=Li, Pu Li, Xiangyang Long,
|date=2020-06-14
|oclc=1228414137
}}</ref><ref name=":8">{{Cite book
|url=http://dx.doi.org/10.1002/9781118689691.ch5
|title=Diagnosis
|date=2015-05-01
|series=Seizures in Dogs and Cats
|publisher=John Wiley & Sons, Inc
|location=Hoboken, NJ
|pages=94–128
|isbn=978-1-118-68969-1
}}</ref>
|A. Khosla et al.
|-
|StanfordExtra Dataset
|2D ключові точки та сегментації для набору даних Stanford Dogs.
|Надано 2D ключові точки та сегментації.
|12,035
|Марковані зображення
|3D реконструкція/оцінка пози
|2020
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-3-030-58621-8_12
|title=Who Left the Dogs Out? 3D Animal Reconstruction with Expectation Maximization in the Loop
|last=Biggs
|first=Benjamin
|last2=Boyne
|first2=Oliver
|last3=Charles
|first3=James
|last4=Fitzgibbon
|first4=Andrew
|last5=Cipolla
|first5=Roberto
|date=2020
|series=Computer Vision – ECCV 2020
|publisher=Springer International Publishing
|location=Cham
|pages=195–211
|isbn=978-3-030-58620-1
}}</ref>
|B. Biggs et al.
|-
|The Oxford-IIIT Pet Dataset
|37 категорій домашніх тварин із приблизно 200 зображеннями кожної.
|Мітка породи, щільна рамка, сегментація переднього плану та фону.
|~ 7,400
|Зображення, текст
|Класифікація, виявлення об'єктів
|2012
|<ref name=":23">{{Cite book
|url=http://worldcat.org/oclc/1233686320
|title=CNN features off-the-shelf : An Astounding Baseline for Recognition
|last=Stefan
|first=Sharif Razavian, Ali Azizpour, Hossein Sullivan, Josephine Carlsson,
|date=2014
|publisher=KTH, Datorseende och robotik, CVAP
|oclc=1233686320
}}</ref><ref name=":8"/>
|O. Parkhi et al.
|-
|Corel Image Features Data Set
|База даних зображень з витягнутими функціями.
|Багато функцій, включаючи гістограму кольорів, текстуру спільного появи та колірні моменти,
|68,040
|Текст
|Класифікація, виявлення об'єктів
|1999
|<ref>{{Cite news|title=Supporting ranked Boolean similarity queries in MARS|url=http://ieeexplore.ieee.org/document/738357/|work=IEEE Transactions on Knowledge and Data Engineering|date=Nov.-Dec./1998|accessdate=2022-05-20|doi=10.1109/69.738357|pages=905–925|volume=10|issue=6|first=M.|last=Ortega|first2=Y.|last2=Rui|first3=K.|last3=Chakrabarti|first4=K.|last4=Porkaew|first5=S.|last5=Mehrotra|first6=T.S.|last6=Huang}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/811773023
|title=Medical image computing and computer-assisted intervention--MICCAI 2012. 15th International Conference, Nice, France, October 1-5, 2012, Proceedings
|last=France)
|first=International Conference on Medical Image Computing and Computer-Assisted Intervention (15th : 2012 : Nice,
|date=2012
|publisher=Springer
|isbn=978-3-642-33418-4
|oclc=811773023
}}</ref>
|M. Ortega-Bindenberger et al.
|-
|Online Video Characteristics and Transcoding Time Dataset.
|Час перекодування для різних відео та властивостей відео.
|Надано функції відео.
|168,286
|Текст
|Регресія
|2015
|<ref>{{Cite news|title=Video transcoding time prediction for proactive load balancing|url=http://dx.doi.org/10.1109/icme.2014.6890256|publisher=IEEE|work=2014 IEEE International Conference on Multimedia and Expo (ICME)|date=2014-07|accessdate=2022-05-20|doi=10.1109/icme.2014.6890256|first=Tewodors|last=Deneke|first2=Habtegebreil|last2=Haile|first3=Sebastien|last3=Lafond|first4=Johan|last4=Lilius}}</ref>
|T. Deneke et al.
|-
|Microsoft Sequential Image Narrative Dataset (SIND)
|Набір даних для послідовного перегляду мови
|Описові підписи та розповідь наведено для кожної фотографії, а фотографії розташовані в послідовності
|81,743
|Зображення, текст
|Візуальне оповідання
|2016
|<ref>{{Cite book
|url=http://dx.doi.org/10.3726/978-3-653-03968-9/3
|title=10.3726/978-3-653-03968-9/3
|series=Inactive DOIs
|publisher=CrossRef
}}</ref>
|[[Microsoft Research]]
|-
|Caltech-UCSD Birds-200-2011 Dataset
|Великий набір зображень птахів.
|Розташування частин для птахів, рамки, 312 бінарних атрибутів
|11,788
|Зображення ,текст
|Класифікація
|2011
|<ref>{{Cite web|title=Preparation H1N1, et al.: Influenza vaccination, 2010-2011|url=http://dx.doi.org/10.1037/e527392011-001|website=PsycEXTRA Dataset|date=2010|accessdate=2022-05-27}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/1127139088
|title=Computational methods for integrating vision and language
|last=author.
|first=Barnard, Kobus.,
|isbn=1-60845-113-5
|oclc=1127139088
}}</ref>
|C. Wah et al.
|-
|YouTube-8M
|Великий і різноманітний набір відеоданих із мітками
|Ідентифікатори відео YouTube і пов’язані мітки з різноманітного словника з 4800 візуальних об’єктів
|8 million
|Відео, текст
|Класифікація відео
|2016
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-3-030-11018-5_29
|title=Approach for Video Classification with Multi-label on YouTube-8M Dataset
|last=Shin
|first=Kwangsoo
|last2=Jeon
|first2=Junhyeong
|last3=Lee
|first3=Seungbin
|last4=Lim
|first4=Boyoung
|last5=Jeong
|first5=Minsoo
|last6=Nang
|first6=Jongho
|date=2019
|series=Lecture Notes in Computer Science
|publisher=Springer International Publishing
|location=Cham
|pages=317–324
|isbn=978-3-030-11017-8
}}</ref><ref name=":9">{{Cite news|title=OpenArXiv = arXiv + RDBMS + web services|url=http://dx.doi.org/10.1145/1141753.1141870|publisher=ACM Press|work=Proceedings of the 6th ACM/IEEE-CS joint conference on Digital libraries - JCDL '06|date=2006|accessdate=2022-05-20|doi=10.1145/1141753.1141870|first=Justin|last=Fisher|first2=Hyunyoung|last2=Kil|first3=Dongwon|last3=Lee}}</ref>
|S. Abu-El-Haija et al.
|-
|YFCC100M
|Великий і різноманітний набір даних зображень і відео з мітками
|Розташування частин для птахів, обмежувальні рамки, 312 бінарних атрибутів, надані Flickr Videos and Images та пов’язані описи, назви, теги та інші метадані (наприклад, EXIF та геотеги)
|100 million
|Відео, зображення,текст
|Класифікація відео та зображень
|2016
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1204141741
|title=Deep Learning mit TensorFlow, Keras und TensorFlow.js
|last=Matthieu.
|first=Deru,
|date=2020
|publisher=Rheinwerk Verlag
|isbn=978-3-8362-7427-2
|oclc=1204141741
}}</ref><ref>{{Cite news|title=YFCC100M: the new data in multimedia research|url=https://dl.acm.org/doi/10.1145/2812802|work=Communications of the ACM|date=2016-01-25|accessdate=2022-05-20|issn=0001-0782|doi=10.1145/2812802|pages=64–73|volume=59|issue=2|language=en|first=Bart|last=Thomee|first2=David A.|last2=Shamma|first3=Gerald|last3=Friedland|first4=Benjamin|last4=Elizalde|first5=Karl|last5=Ni|first6=Douglas|last6=Poland|first7=Damian|last7=Borth|first8=Li-Jia|last8=Li}}</ref>
|B. Thomee et al.
|-
|Discrete LIRIS-ACCEDE
|Короткі відео з анотаціями для валентності та збудження.
|Етикетки валентності та збудження.
|9800
|Відео
|Відео виявлення емоцій
|2015
|<ref>{{Cite news|title=LIRIS-ACCEDE: A Video Database for Affective Content Analysis|url=http://dx.doi.org/10.1109/taffc.2015.2396531|work=IEEE Transactions on Affective Computing|date=2015-01-01|accessdate=2022-05-20|issn=1949-3045|doi=10.1109/taffc.2015.2396531|pages=43–55|volume=6|issue=1|first=Yoann|last=Baveye|first2=Emmanuel|last2=Dellandrea|first3=Christel|last3=Chamaret|last4=Liming Chen}}</ref>
|Y. Baveye et al.
|-
|Continuous LIRIS-ACCEDE
|Довгі відео з анотаціями для валентності та збудження, а також зібрані гальванічні реакції шкіри.
|Етикетки валентності та збудження.
|30
|Відео
|Відео виявлення емоцій
|2015
|<ref>{{Cite news|title=Deep learning vs. kernel methods: Performance for emotion prediction in videos|url=http://dx.doi.org/10.1109/acii.2015.7344554|publisher=IEEE|work=2015 International Conference on Affective Computing and Intelligent Interaction (ACII)|date=2015-09|accessdate=2022-05-20|doi=10.1109/acii.2015.7344554|first=Yoann|last=Baveye|first2=Emmanuel|last2=Dellandrea|first3=Christel|last3=Chamaret|first4=Liming|last4=Chen}}</ref>
|Y. Baveye et al.
|-
|MediaEval LIRIS-ACCEDE
|Розширення Discrete LIRIS-ACCEDE, включаючи анотації для рівнів насильства у фільмах.
|Мітки насильства, валентності та збудження.
|10900
|Відео
|Відео виявлення емоцій
|2015
|<ref>{{Cite news|title=Imbalance Learning-based Framework for Fear Recognition in the MediaEval Emotional Impact of Movies Task|url=http://dx.doi.org/10.21437/interspeech.2018-1744|publisher=ISCA|work=Interspeech 2018|date=2018-09-02|accessdate=2022-05-20|doi=10.21437/interspeech.2018-1744|first=Xiaotong|last=Zhang|first2=Xingliang|last2=Cheng|first3=Mingxing|last3=Xu|first4=Thomas Fang|last4=Zheng}}</ref>
|Y. Baveye et al.
|-
|Leeds Sports Pose
|Артикуловані анотації людської пози на 2000 природних спортивних зображеннях із Flickr.
|Грубий урожай навколо однієї особи, яка цікавить, з 14 спільними етикетками
|2000
|Зображення плюс мітки файлів .mat
|Оцінка пози людини
|2010
|<ref>{{Cite news|title=Clustered Pose and Nonlinear Appearance Models for Human Pose Estimation|url=http://dx.doi.org/10.5244/c.24.12|publisher=British Machine Vision Association|work=Procedings of the British Machine Vision Conference 2010|date=2010|accessdate=2022-05-20|doi=10.5244/c.24.12|first=Sam|last=Johnson|first2=Mark|last2=Everingham}}</ref>
|S. Johnson and M. Everingham
|-
|Leeds Sports Pose Extended Training
|Чітко сформульовані анотації людської пози на 10 000 природних спортивних зображень із Flickr.
|14 спільних етикеток через краудсорсинг
|10000
|Зображення плюс мітки файлів .mat
|Оцінка пози людини
|2011
|<ref>{{Cite news|title=Learning effective human pose estimation from inaccurate annotation|url=http://dx.doi.org/10.1109/cvpr.2011.5995318|publisher=IEEE|work=CVPR 2011|date=2011-06|accessdate=2022-05-20|doi=10.1109/cvpr.2011.5995318|first=Sam|last=Johnson|first2=Mark|last2=Everingham}}</ref>
|S. Johnson and M. Everingham
|-
|MCQ Dataset
|6 різних реальних іспитів із множинним вибором (735 бланків відповідей і 33 540 блоків відповідей) для оцінки методів і систем комп’ютерного зору, розроблених для систем оцінювання тестів із множинним вибором.
|Жодного
|735 бланків відповідей та 33 540 скриньок для відповідей
|Мітки файлів зображень і .mat
|Розробка систем оцінювання тестів із множинним вибором
|2017
|<ref>{{Cite news|title=Reports of six individual workshops|url=https://pubmed.ncbi.nlm.nih.gov/1711|work=Nursing Mirror and Midwives Journal|date=1976-01-08|accessdate=2022-05-20|issn=0143-2524|pmid=1711|pages=56–59|volume=142|issue=2}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/1106232721
|title=TabMCQ: A Dataset of General Knowledge Tables and Multiple-choice Questions
|last=Eduard
|first=Jauhar, Sujay Kumar Turney, Peter Hovy,
|date=2016-02-11
|oclc=1106232721
}}</ref>
|Afifi, M. et al.
|-
|Surveillance Videos
|Справжні відеоспостереження охоплюють великий час спостереження (7 днів по 24 години кожне).
|Жодного
|19 surveillance videos (7 days with 24 hours each).
|Відео
|Стиснення даних
|2016
|<ref>{{Cite news|title=A new compression technique for surveillance videos: Evaluation using new dataset|url=http://ieeexplore.ieee.org/document/7544020/|publisher=IEEE|work=2016 Sixth International Conference on Digital Information and Communication Technology and its Applications (DICTAP)|date=2016-07|accessdate=2022-05-20|isbn=978-1-4673-9609-7|doi=10.1109/DICTAP.2016.7544020|pages=159–164|first=Islam A.T.F.|last=Taj-Eddin|first2=Mahmoud|last2=Afifi|first3=Mostafa|last3=Korashy|first4=Doha|last4=Hamdy|first5=Marwa|last5=Nasser|first6=Shimaa|last6=Derbaz}}</ref>
|Taj-Eddin, I. A. T. F. et al.
|-
|LILA BC
|Маркована інформаційна бібліотека Олександрії: біологія та охорона. Позначені зображення, які підтримують дослідження машинного навчання в галузі екології та екології.
|Жодного
|~10M images
|Зображення
|Класифікація
|2019
|<ref>{{Cite news|title=Machine learning to classify animal species in camera trap images: Applications in ecology|url=https://onlinelibrary.wiley.com/doi/10.1111/2041-210X.13120|work=Methods in Ecology and Evolution|date=2019-04|accessdate=2022-05-20|issn=2041-210X|doi=10.1111/2041-210X.13120|pages=585–590|volume=10|issue=4|language=en|first=Michael A.|last=Tabak|first2=Mohammad S.|last2=Norouzzadeh|first3=David W.|last3=Wolfson|first4=Steven J.|last4=Sweeney|first5=Kurt C.|last5=Vercauteren|first6=Nathan P.|last6=Snow|first7=Joseph M.|last7=Halseth|first8=Paul A.|last8=Di Salvo|first9=Jesse S.|last9=Lewis|editor-first=Theoni|editor-last=Photopoulou}}</ref>
|LILA working group
|-
|Can We See Photosynthesis?
|32 відео для восьми живих і восьми мертвих листків, записаних в умовах освітлення постійного та змінного струму.
|Жодного
|32 відео
|Відео
|Виявлення живості рослин
|2017
|<ref>{{Cite news|title=Can we see photosynthesis? Magnifying the tiny color changes of plant green leaves using Eulerian video magnification|url=https://www.spiedigitallibrary.org/journals/journal-of-electronic-imaging/volume-26/issue-06/060501/Can-we-see-photosynthesis-Magnifying-the-tiny-color-changes-of/10.1117/1.JEI.26.6.060501.full|work=Journal of Electronic Imaging|date=2017-11-02|accessdate=2022-05-20|issn=1017-9909|doi=10.1117/1.JEI.26.6.060501|pages=1|volume=26|issue=06|first=Islam A. T. F.|last=Taj-Eddin}}</ref>
|Taj-Eddin, I. A. T. F. et al.
|-
|Mathematical Mathematics Memes
|Колекція з 10 000 мемів з математики.
|Жодного
|~10,000
|Зображення
|Візуальне оповідання, виявлення об’єктів.
|2021
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1043395986
|title=An anthropology of puzzles : the role of puzzles in the origins and evolution of mind and culture
|last=author.
|first=Danesi, Marcel, 1946-
|isbn=978-1-350-08985-3
|oclc=1043395986
}}</ref>
|Mathematical Mathematics Memes
|}

== Текстові дані ==
Ці набори даних складаються переважно з тексту для таких завдань, як [[Обробка природної мови|обробка мови]], [[Аналіз тональності тексту|аналіз настроїв]], переклад і [[кластерний аналіз]].

=== Відгуки ===
{| class="wikitable sortable"
!Назва
!Опис
!Оброботка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Amazon reviews
|Огляди американських продуктів від Amazon.com.
|Жодного
|233.1 million
|Текст
|Класифікація, аналіз настроїв
|2015 (2018)
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1106220231
|title=Image-based Recommendations on Styles and Substitutes
|last=den
|first=McAuley, Julian Targett, Christopher Shi, Qinfeng Hengel, Anton van
|date=2015-06-15
|oclc=1106220231
}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/1140410786
|title=TEAS review
|last=author.
|first=Cantarella, Cara,
|isbn=978-1-260-46239-5
|oclc=1140410786
}}</ref>
|McAuley et al.
|-
|OpinRank Review Dataset
|Огляди автомобілів і готелів від Edmunds.com і TripAdvisor відповідно.
|Жодного
|42,230 / ~259,000 respectively
|Текст
|Аналіз настроїв, кластеризація
|2011
|<ref>{{Cite news|title=Opinion-based entity ranking|url=http://link.springer.com/10.1007/s10791-011-9174-8|work=Information Retrieval|date=2012-04|accessdate=2022-05-20|issn=1386-4564|doi=10.1007/s10791-011-9174-8|pages=116–150|volume=15|issue=2|language=en|first=Kavita|last=Ganesan|first2=ChengXiang|last2=Zhai}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/851389904
|title=Advances in swarm intelligence : 4th International Conference, ICSI 2013, Harbin, China, June 12-15, 2013, proceedings
|last=China)
|first=ICSI (Conference) (4th : 2013 : Harbin,
|isbn=978-3-642-38702-9
|oclc=851389904
}}</ref>
|K. Ganesan et al.
|-
|MovieLens
|22 000 000 оцінок і 580 000 тегів застосовано до 33 000 фільмів 240 000 користувачів.
|Жодного
|~ 22M
|Текст
|Регресія, кластеризація, класифікація
|2016
|<ref>{{Cite news|title=The MovieLens Datasets: History and Context|url=https://dl.acm.org/doi/10.1145/2827872|work=ACM Transactions on Interactive Intelligent Systems|date=2016-01-07|accessdate=2022-05-20|issn=2160-6455|doi=10.1145/2827872|pages=1–19|volume=5|issue=4|language=en|first=F. Maxwell|last=Harper|first2=Joseph A.|last2=Konstan}}</ref><ref>{{Cite web|url=http://www.csse.monash.edu.au/~dld/Publications/2002/Tan+Dowe2002_MMLDecisionGraphs.ps|title=McFee, Brian, et al.}}</ref>
|[[:en:GroupLens_Research|GroupLens Research]]
|-
|Yahoo! Music User Ratings of Musical Artists
|Понад 10 мільйонів рейтингів виконавців від користувачів Yahoo.
|Жодного не описано.
|~ 10M
|Текст
|Класифікація, регресія
|2004
|<ref>{{Cite news|title=Yahoo! music recommendations|url=http://dx.doi.org/10.1145/2043932.2043964|publisher=ACM Press|work=Proceedings of the fifth ACM conference on Recommender systems - RecSys '11|date=2011|accessdate=2022-05-20|doi=10.1145/2043932.2043964|first=Noam|last=Koenigstein|first2=Gideon|last2=Dror|first3=Yehuda|last3=Koren}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/875517979
|title=Towards a linked semantic web: Precisely, comprehensively and scalably linking heterogeneous data in the semantic web.
|last=Dezhao.
|first=Song,
|date=2014
|isbn=978-1-303-66041-2
|oclc=875517979
}}</ref>
|[[Yahoo!]]
|-
|Car Evaluation Data Set
|Властивості автомобіля та їх загальна прийнятність.
|Наведено шість категоріальних ознак.
|1728
|Текст
|Класифікація
|1997
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/3-540-36187-1_12
|title=MML Inference of Decision Graphs with Multi-way Joins
|last=Tan
|first=Peter J.
|last2=Dowe
|first2=David L.
|date=2002
|series=Lecture Notes in Computer Science
|publisher=Springer Berlin Heidelberg
|location=Berlin, Heidelberg
|pages=131–142
|isbn=978-3-540-00197-3
}}</ref>
|M. Bohanec
|-
|YouTube Comedy Slam Preference Dataset
|Дані про голосування користувачів для пар відео, які відображаються на YouTube. Користувачі голосували за смішніші відео.
|Надано метадані відео.
|1,138,562
|Текст
|Класифікація
|2012
|<ref>{{Cite news|title=Where lol Is: Function and Position of lol Used as a Discourse Marker in YouTube Comments|url=http://dx.doi.org/10.4000/discours.10900|work=Discours|date=2020-12-23|accessdate=2022-05-20|issn=1963-1723|doi=10.4000/discours.10900|issue=27|first=Célia|last=Schneebeli}}</ref><ref>{{Cite book
|url=http://link.springer.com/10.1007/978-3-642-32692-9_63
|title=A Classifier for Big Data
|last=Kim
|first=Byung Joo
|date=2012
|editor-last=Lee
|editor-first=Geuk
|editor2-last=Howard
|editor2-first=Daniel
|editor3-last=Ślęzak
|editor3-first=Dominik
|editor4-last=Hong
|editor4-first=You Sik
|series=Convergence and Hybrid Information Technology
|publisher=Springer Berlin Heidelberg
|volume=310
|location=Berlin, Heidelberg
|pages=505–512
|language=en
|doi=10.1007/978-3-642-32692-9_63
|isbn=978-3-642-32691-2
}}</ref>
|Google
|-
|Skytrax User Reviews Dataset
|Відгуки користувачів про авіакомпанії, аеропорти, місця та салони від Skytrax.
|Оцінки є дрібними і включають багато аспектів досвіду в аеропорту.
|41396
|Текст
|Класифікація, регресія
|2015
|<ref>{{Cite book
|url=http://worldcat.org/oclc/754949191
|title=Predicting Skytrax airport rankings from customer reviews
|last=D.
|first=Pérezgonzález, Jose
|oclc=754949191
}}</ref>
|Q. Nguyen
|-
|Teaching Assistant Evaluation Dataset
|Огляди помічника вчителя.
|Наведено особливості кожного екземпляра, такі як клас, розмір класу та викладач.
|151
|Текст
|Класифікація
|1997
|<ref>{{Cite book
|url=http://worldcat.org/oclc/878051089
|title=Combining pattern classifiers : methods and algorithms
|last=1959-
|first=Kuncheva, Ludmila I. (Ludmila Ilieva),
|isbn=978-1-118-91454-0
|oclc=878051089
}}</ref>
|W. Loh et al.
|-
|Vietnamese Students’ Feedback Corpus (UIT-VSFC)
|Відгуки студентів.
|Коментарі
|16,000
|Текст
|Класифікація
|1997
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1228434572
|title=Empirical Study of Text Augmentation on Social Media Text in Vietnamese
|last=Luu-Thuy
|first=Luu, Son T. Van Nguyen, Kiet Nguyen, Ngan
|date=2020-09-25
|oclc=1228434572
}}</ref><ref>{{Cite news|title=A Comparison of Prediction Accuracy, Complexity, and Training Time of Thirty-Three Old and New Classification Algorithms|url=https://doi.org/10.1023/A:1007608224229|work=Machine Learning|date=2000-09-01|accessdate=2022-05-27|issn=1573-0565|doi=10.1023/A:1007608224229|pages=203–228|volume=40|issue=3|language=en|first=Tjen-Sien|last=Lim|first2=Wei-Yin|last2=Loh|first3=Yu-Shan|last3=Shih}}</ref>
|Nguyen et al.
|-
|Vietnamese Social Media Emotion Corpus (UIT-VSMEC)
|Коментарі користувачів у Facebook.
|Коментарі
|6,927
|Текст
|Класифікація
|1997
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1205194968
|title=Computational Linguistics and Intelligent Text Processing 17th International Conference, CICLing 2016, Konya, Turkey, April 3-9, 2016, Revised Selected Papers, Part II
|last=editor.
|first=Gelbukh, Alexander.,
|isbn=978-3-319-75487-1
|oclc=1205194968
}}</ref>
|Nguyen et al.
|-
|Vietnamese Open-domain Complaint Detection dataset (ViOCD)
|Коментарі користувачів у Facebook.
|Коментарі
|5,485
|Текст
|Класифікація
|2021
|<ref>{{Cite news|title=Effect of initial pH on aflatoxin production|url=https://pubmed.ncbi.nlm.nih.gov/2104|work=Applied Microbiology|date=1975-12|accessdate=2022-05-20|issn=0003-6919|pmc=PMC376591|pmid=2104|doi=10.1128/am.30.6.1050-1051.1975|pages=1050–1051|volume=30|issue=6|first=R. L.|last=Buchanan|first2=J. C.|last2=Ayres}}</ref>
|Nguyen et al.
|}

=== Новини ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|NYSK Dataset
|Англійські новини про справу щодо звинувачень у сексуальному насильстві проти колишнього директора МВФ Домініка Стросс-Кана.
|Відфільтровано та представлено у форматі XML.
|10,421
|XML, текст
|Аналіз настроїв, виділення теми
|2013
|<ref>{{Cite news|title=A Joint Model for Topic-Sentiment Evolution over Time|url=http://ieeexplore.ieee.org/document/7023399/|publisher=IEEE|work=2014 IEEE International Conference on Data Mining|date=2014-12|accessdate=2022-05-20|isbn=978-1-4799-4302-9|doi=10.1109/ICDM.2014.82|pages=773–778|first=Mohamed|last=Dermouche|first2=Julien|last2=Velcin|first3=Leila|last3=Khouas|first4=Sabine|last4=Loudcher}}</ref>
|Dermouche, M. et al.
|-
|The Reuters Corpus Volume 1
|Великий корпус новин Reuters англійською мовою.
|Дрібнозерниста категоризація та коди тем.
|810,000
|Текст
|Класифікація, кластеризація, узагальнення
|2002
|<ref>{{Cite book
|url=http://dx.doi.org/10.4324/9781315842677-23
|title=First Catch your Corpus: Building a French Undergraduate Corpus from Readily Available Textual Resources
|last=Inkster
|first=Gordon
|date=2014-06-11
|series=Teaching and Language Corpora
|publisher=Routledge
|location=except Chapter 2 Corpus Evidcncc in Language Description © John M, Sindair
|pages=267–276
|isbn=978-1-315-84267-7
}}</ref>
|[[Рейтер|Reuters]]
|-
|The Reuters Corpus Volume 2
|Великий корпус новин Reuters кількома мовами.
|Дрібнозерниста категоризація та коди тем.
|487,000
|Текст
|Класифікація, кластеризація, узагальнення
|2005
|<ref>{{Cite book
|url=http://worldcat.org/oclc/698457052
|title=Learning from Multiple Partially Observed Views - an Application to Multilingual Text Categorization
|last=Cyril
|first=Amini, Massih R. Usunier, Nicolas Goutte,
|date=2010
|oclc=698457052
}}</ref>
|[[Рейтер|Reuters]]
|-
|Thomson Reuters Text Research Collection
|Великий корпус новин.
|Деталі не описані.
|1,800,370
|Текст
|Класифікація, кластеризація, узагальнення
|2009
|<ref>{{Cite web|url=https://www.aaai.org/ocs/index.php/IJCAI/IJCAI15/paper/download/10903/10990|title=Liu, Ming; et al. (2015)}}</ref>
|T. Rose et al.
|-
|Saudi Newspapers Corpus
|31 030 арабських газетних статей.
|Вилучено метадані.
|31,030
|JSON
|Підведення підсумків, кластеризація
|2015
|<ref>{{Cite news|title=Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France}}</ref>
|M. Alhagri
|-
|RE3D (Relationship and Entity Extraction Evaluation Dataset)
|Entity and Relation позначені дані з різних новин та державних джерел. За підтримки Dstl
|Відфільтровано, категоризація за допомогою типів Baleen
|невідомо
|JSON
|Класифікація, сутність і розпізнавання відносин
|2017
|<ref>{{Cite news|title=Al-Harbi, S; Almuhareb, A; Al-Thubaity, A; Khorsheed, M. S.; Al-Rajeh, A (2008). "Automatic Arabic Text Classification". Proceedings of the 9th International Conference on the Statistical Analysis of Textual Data, Lyon, France}}</ref>
|Dstl
|-
|[[:en:Examiner.com|Examiner]] Spam Clickbait Catalogue
|Приманки кліків, спам, заголовки з краудсорсингу з 2010 по 2015 рік
|Опублікувати дату та заголовки
|3,089,781
|CSV
|Кластеризація, події, настрої
|2016
|<ref>{{Cite web|title=The Examiner - Spam Clickbait Catalog|url=https://www.kaggle.com/therohk/examine-the-examiner|website=www.kaggle.com|accessdate=2022-05-20|language=en}}</ref>
|R. Kulkarni
|-
|[[Australian Broadcasting Corporation|ABC]] Australia News Corpus
|Весь корпус новин ABC Australia з 2003 по 2019 рік
|Опублікувати дату та заголовки
|1,186,018
|CSV
|Кластеризація, події, настрої
|2020
|<ref>{{Cite web|title=A Million News Headlines|url=https://www.kaggle.com/therohk/million-headlines|website=www.kaggle.com|accessdate=2022-05-20|language=en}}</ref>
|R. Kulkarni
|-
|Worldwide News – Aggregate of 20K [[:en:Web_feed|Feeds]]
|Тижневий знімок усіх онлайн-заголовків понад 20 мовами
|Час публікації, URL-адреса та заголовки
|1,398,431
|CSV
|Кластеризація, події, визначення мови
|2018
|<ref name=":13">{{Cite news|title=List of datasets for machine-learning research|url=https://en.wikipedia.org/w/index.php?title=List_of_datasets_for_machine-learning_research&oldid=1088499984|work=Wikipedia|date=2022-05-18|accessdate=2022-05-20|language=en}}</ref>
|R. Kulkarni
|-
|[[:en:Reuters|Reuters]] News Wire Headline
|11 років подій із мітками часу, опублікованих у новинах
|Час публікації, текст заголовка
|16,121,310
|CSV
|НЛП, Комп'ютерна лінгвістика, Події
|2018
|<ref>{{Citation|title=The Historical Reuters News-Wire|url=https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/XDB74W|publisher=Harvard Dataverse|date=2018-11-11|accessdate=2022-05-20|doi=10.7910/dvn/xdb74w|language=en|first=Rohit|last=Kulkarni}}</ref>
|R. Kulkarni
|-
| Ireland News Corpus
|Новини 24 років Ірландії з 1996 по 2019 рік
|Час публікації, категорія заголовка та текст
|1,484,340
|CSV
|НЛП, Комп'ютерна лінгвістика, Події
|2020
|<ref>{{Cite web|title=Irish Times - Waxy-Wany News|url=https://www.kaggle.com/therohk/ireland-historical-news|website=www.kaggle.com|accessdate=2022-05-20|language=en}}</ref>
|R. Kulkarni
|-
|News Headlines Dataset for Sarcasm Detection
|Високоякісний набір даних із саркастичними та несаркастичними заголовками новин.
|Чистий, нормований текст
|26,709
|JSON
|НЛП, Комп'ютерна лінгвістика
|2018
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1228361723
|title=Sarcasm Detection using Hybrid Neural Network
|last=Prahal
|first=Misra, Rishabh Arora,
|date=2019-08-20
|oclc=1228361723
}}</ref>
|Rishabh Misra
|}

=== Повідомлення ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Enron Email Dataset
|Електронні листи від співробітників Enron розбиті в папки.
|Вкладення видалено, недійсні адреси електронної пошти перетворені на user@enron.com або no_address@enron.com
|~ 500,000
|Текст
|Аналіз мережі, аналіз настроїв
|2004 (2015)
|<ref>{{Cite book
|url=http://worldcat.org/oclc/646114019
|title=Technological developments in networking, education and automation
|last=Khaled.
|first=Elleithy,
|date=2010
|publisher=Springer
|isbn=978-90-481-9150-5
|oclc=646114019
}}</ref><ref>{{Cite news|url=https://bklimt.com/papers/2004_klimt_ceas.pdf|title=Klimt, Bryan, and Yiming Yang.}}</ref>
|Klimt, B. and Y. Yang
|-
|Ling-Spam Dataset
|Корпус, що містить як легітимні листи, так і спам.
|Чотири версії корпусу щодо того, чи був увімкнений лемматизатор чи стоп-лист.
|2,412 Ham 481 Spam
|Текст
|Класифікація
|2000
|<ref>{{Cite news|title=An evaluation of Naive Bayesian anti-spam filtering|url=http://arxiv.org/abs/cs/0006013|work=arXiv:cs/0006013|date=2000-06-07|accessdate=2022-05-27|first=Ion|last=Androutsopoulos|first2=John|last2=Koutsias|first3=Konstantinos V.|last3=Chandrinos|first4=George|last4=Paliouras|first5=Constantine D.|last5=Spyropoulos}}</ref><ref>[http://www.jmlr.org/papers/volume7/bratko06a/bratko06a.pdf Bratko, Andrej; et al. (2006). "Spam filtering using statistical data compression models" (PDF). ''The Journal of Machine Learning Research''. '''7''': 2673–2698.]</ref>
|Androutsopoulos, J. et al.
|-
|SMS Spam Collection Dataset
|Зібрані SMS-повідомлення зі спамом.
|Немає
|5,574
|Текст
|Класифікація
|2011
|<ref>{{Cite news|title=Contributions to the study of SMS spam filtering|url=http://dx.doi.org/10.1145/2034691.2034742|publisher=ACM Press|work=Proceedings of the 11th ACM symposium on Document engineering - DocEng '11|date=2011|accessdate=2022-05-20|doi=10.1145/2034691.2034742|first=Tiago A.|last=Almeida|first2=José María G.|last2=Hidalgo|first3=Akebo|last3=Yamakami}}</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/828409296
|title=2012 International Conference on Information Technology and Management Science (ICITMS 2012) proceedings
|last=China)
|first=International Conference on Information Technology and Management Science (2012 : Chongqing,
|date=2013
|publisher=Springer
|isbn=978-3-642-34910-2
|oclc=828409296
}}</ref>
|T. Almeida et al.
|-
|Messages from 20 different newsgroups.
|Повідомлення з 20 різних груп новин.
|Немає
|20,000
|Текст
|Обробка природної мови
|1999
|<ref>{{Cite book
|url=http://worldcat.org/oclc/831635005
|title=A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization.
|last=Thorsten
|first=CARNEGIE-MELLON UNIV PITTSBURGH PA DEPT OF COMPUTER SCIENCE Joachims,
|date=1996-03
|oclc=831635005
}}</ref>
|T. Mitchell et al.
|-
|Spambase Dataset
|Спам електронних листів.
|Вилучено багато текстових функцій.
|4,601
|Текст
|Виявлення спаму, класифікація
|1999
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1264895874
|title=Proceedings of ELM-2014 Volume 1 Algorithms and Theories
|last=editor.
|first=Cao, Jiuwen.
|isbn=978-3-319-14063-6
|oclc=1264895874
}}</ref>
|M. Hopkins et al.
|}

=== Твіттер і твіти ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|MovieTweetings
|Набір даних рейтингу фільмів на основі загальнодоступних і добре структурованих твітів
|
|~710,000
|Текст
|Класифікація, регресія
|2018
|<ref>{{Citation|title=MovieTweetings|url=https://github.com/sidooms/MovieTweetings|date=2022-05-06|accessdate=2022-05-20|first=Simon|last=Dooms}}</ref>
|S. Dooms
|-
|Twitter100k
|Пари зображень і твітів
|
|100,000
|Текст і зображення
|Міжмедійний пошук
|2017
|<ref>RoyChowdhury, Aruni; Lin, Tsung-Yu; Maji, Subhransu; Learned-Miller, Erik (2017). "Twitter100k: A Real-world Dataset for Weakly Supervised Cross-Media Retrieval". arXiv:1703.06618 [cs.CV].

</ref><ref>{{Cite news|title=Twitter100k: A Real-World Dataset for Weakly Supervised Cross-Media Retrieval|url=http://dx.doi.org/10.1109/tmm.2017.2760101|work=IEEE Transactions on Multimedia|date=2018-04|accessdate=2022-05-20|issn=1520-9210|doi=10.1109/tmm.2017.2760101|pages=927–938|volume=20|issue=4|first=Yuting|last=Hu|first2=Liang|last2=Zheng|first3=Yi|last3=Yang|first4=Yongfeng|last4=Huang}}</ref>
|Y. Hu, et al.
|-
|Sentiment140
|Дані твітів за 2009 рік, включаючи оригінальний текст, мітку часу, користувача та настрої.
|Класифіковано за допомогою дистанційного спостереження від наявності смайлика в твіті.
|1,578,627
|Твіти, коми, розділені значення
|аналіз настроїв
|2009
|<ref>Go, Alec; Bhayani, Richa; Huang, Lei (2009). "Twitter sentiment classification using distant supervision". ''CS224N Project Report, Stanford''. '''1''': 12.

</ref><ref>{{Cite news|title=SeNTU: Sentiment Analysis of Tweets by Combining a Rule-based Classifier with Supervised Learning|url=http://dx.doi.org/10.18653/v1/s15-2108|publisher=Association for Computational Linguistics|work=Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)|date=2015|accessdate=2022-05-20|doi=10.18653/v1/s15-2108|first=Prerna|last=Chikersal|first2=Soujanya|last2=Poria|first3=Erik|last3=Cambria}}</ref>
|A. Go et al.
|-
|ASU Twitter Dataset
|Дані мережі Twitter, а не фактичні твіти. Показує зв’язки між великою кількістю користувачів.
|Немає
|11 316 811 користувачів, 85 331 846 підключень
|Текст
|Кластеризація, аналіз графів
|2009
|<ref>{{Cite book
|url=http://worldcat.org/oclc/942512517
|title=Analyzing social media data and web networks
|last=compilation.
|first=Gibson, Rachel, 1968- editor of compilation. Cantijoch, Marta, 1978- editor of compilation. Ward, Stephen, 1965- editor of
|date=2014
|publisher=Palgrave Macmillan
|isbn=978-1-137-27677-3
|oclc=942512517
}}</ref><ref>Zafarani, Reza, and Huan Liu. "Social computing data repository at ASU." ''School of Computing, Informatics and Decision Systems Engineering, Arizona State University'' (2009).

</ref>
|R. Zafarani et al.
|-
|SNAP Social Circles: Twitter Database
|Великі дані мережі Twitter.
|Характеристики вузлів, кола та мережі его.
|1,768,149
|Текст
|Кластеризація, аналіз графів
|2012
|<ref>McAuley, Julian J.; Leskovec, Jure. "Learning to Discover Social Circles in Ego Networks". ''NIPS''. '''2012''': 2012.

</ref><ref>{{Cite book
|url=http://worldcat.org/oclc/905091598
|title=Network-based statistical comparison of citation topology of bibliographic databases
|last=Lovro.
|first=Šubelj,
|oclc=905091598
}}</ref>
|J. McAuley et al.
|-
|Twitter Dataset for Arabic Sentiment Analysis
|Арабські твіти.
|Зразки, позначені вручну як позитивні чи негативні.
|2000
|Текст
|Класифікація
|2014
|<ref>Abdulla, N., et al. "Arabic sentiment analysis: Corpus-based and lexicon-based." ''Proceedings of the IEEE conference on Applied Electrical Engineering and Computing Technologies (AEECT)''. 2013.

</ref><ref>{{Cite news|title=Automatic categorization of Arabic articles based on their political orientation|url=http://dx.doi.org/10.1016/j.diin.2018.04.003|work=Digital Investigation|date=2018-06|accessdate=2022-05-20|issn=1742-2876|doi=10.1016/j.diin.2018.04.003|pages=24–41|volume=25|first=Raddad|last=Abooraig|first2=Shadi|last2=Al-Zu'bi|first3=Tarek|last3=Kanan|first4=Bilal|last4=Hawashin|first5=Mahmoud|last5=Al Ayoub|first6=Ismail|last6=Hmeidi}}</ref>
|N. Abdulla
|-
|Buzz in Social Media Dataset
|Дані з Twitter і Tom's Hardware. Цей набір даних зосереджено на конкретних актуальних темах, які обговорюються на цих сайтах.
|Дані відображаються у вікні, щоб користувач міг спробувати передбачити події, які призвели до шуму в соціальних мережах.
|140,000
|Текст
|Регресія, класифікація
|2013
|<ref>{{Cite book
|url=http://worldcat.org/oclc/862968361
|title=Prédictions d'activité dans les réseaux sociaux en ligne
|last=Eustache
|first=Kawala, François Douzal-Chouakria, Ahlame Gaussier, Eric Dimert,
|oclc=862968361
}}</ref><ref>Kawala, François, et al. "Prédictions d'activité dans les réseaux sociaux en ligne." ''4ième conférence sur les modèles et l'analyse des réseaux: Approches mathématiques et informatiques''. 2013.

</ref>
|F. Kawala et al.
|-
|Paraphrase and Semantic Similarity in Twitter (PIT)
|Цей набір даних зосереджується на тому, чи мають твіти (майже) однакове значення/інформацію чи ні. Маркування вручну.
|токенізацію, тегування частин мови та іменованих об’єктів
|18,762
|Текст
|Регресія, класифікація
|2015
|<ref>{{Cite news|title=SemEval-2015 Task 1: Paraphrase and Semantic Similarity in Twitter (PIT)|url=http://dx.doi.org/10.18653/v1/s15-2001|publisher=Association for Computational Linguistics|work=Proceedings of the 9th International Workshop on Semantic Evaluation (SemEval 2015)|date=2015|accessdate=2022-05-20|doi=10.18653/v1/s15-2001|first=Wei|last=Xu|first2=Chris|last2=Callison-Burch|first3=Bill|last3=Dolan}}</ref><ref>{{Cite news|title=Extracting Lexically Divergent Paraphrases from Twitter|url=http://dx.doi.org/10.1162/tacl_a_00194|work=Transactions of the Association for Computational Linguistics|date=2014-12|accessdate=2022-05-20|issn=2307-387X|doi=10.1162/tacl_a_00194|pages=435–448|volume=2|first=Wei|last=Xu|first2=Alan|last2=Ritter|first3=Chris|last3=Callison-Burch|first4=William B.|last4=Dolan|first5=Yangfeng|last5=Ji}}</ref>
|Xu et al.
|-
|Geoparse Twitter benchmark dataset
|Цей набір даних містить твіти під час різних новинних подій у різних країнах. Згадки про місцеположення, позначені вручну.
|до метаданих JSON додано анотації про місцезнаходження
|6,386
|Tweets, JSON
|Класифікація, вилучення інформації
|2014
|<ref>{{Cite book
|url=http://worldcat.org/oclc/855593586
|title=World Environmental and Water Resources Congress 2013 : showcasing the future : proceedings of the 2013 congress, May 19-23, 2013, Cincinnati, Ohio
|last=Ohio)
|first=World Environmental and Water Resources Congress (2013 : Cincinnati,
|oclc=855593586
}}</ref><ref>{{Citation|title=geoparsepy: Geoparsing library to extract and disambiguate locations from text, using OSM database for very high throughputs and no rate limits|url=http://www.ecs.soton.ac.uk/people/sem|accessdate=2022-05-20|first=University of|last=Southampton}}</ref>
|S.E. Middleton et al.
|-
|Dutch Social media collection
|Цей набір даних містить твіти про COVID-19, зроблені нідерландськими носіями або користувачами з Нідерландів. Дані були позначені машиною
|класифіковано за настрої, текст твітів і опис користувача, перекладений англійською. Вилучаються згадки про галузь
|271,342
|JSONL
|Настрої, класифікація з кількома мітками, машинний переклад
|2020
|<ref>{{Cite book
|url=http://worldcat.org/oclc/45015331
|title=Media lost and found
|last=1908-2001.
|first=Barnouw, Erik,
|date=2001
|publisher=Fordham University Press
|isbn=0-8232-2098-2
|oclc=45015331
}}</ref><ref>{{Cite web|title=Streamlit|url=https://huggingface.co/datasets/viewer/?dataset=dutch_social|website=huggingface.co|accessdate=2022-05-20}}</ref><ref>"Dutch Social media collection". ''kaggle.com''. Retrieved 18 December 2020.

</ref>
|Aaaksh Gupta, CoronaWhy
|}

=== Діалоги ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|NPS Chat Corpus
|Публікації з вікових онлайн-чатів.
|Конфіденційність рук замаскована, позначена як частина мови та діалог-акт.
|~ 500,000
|XML
|НЛП, програмування, лінгвістика
|2007
|<ref>{{Cite news|title=ReSEARCH: A Requirements Search Engine: Progress Report 2|url=http://dx.doi.org/10.21236/ada529465|date=2008-09-01|accessdate=2022-05-27|first=Paige|last=Adams|first2=Pranav|last2=Anand|first3=Grant|last3=Gehrke|first4=Ralucca|last4=Gera|first5=Marco|last5=Draeger|first6=Craig|last6=Martell|first7=Kevin|last7=Squire}}</ref>
|Forsyth, E., Lin, J., & Martell, C.
|-
|Twitter Triple Corpus
|A-B-A трійки витягнуто з Twitter.
|
|4,232
|Текст
|NLP
|2016
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1106220776
|title=A Neural Network Approach to Context-Sensitive Generation of Conversational Responses
|last=Bill
|first=Sordoni, Alessandro Galley, Michel Auli, Michael Brockett, Chris Ji, Yangfeng Mitchell, Margaret Nie, Jian-Yun Gao, Jianfeng Dolan,
|date=2015-06-22
|oclc=1106220776
}}</ref>
|Sordini, A. et al.
|-
|UseNet Corpus
|Повідомлення на форумі UseNet.
|Анонімні електронні листи та URL-адреси. Пропущені документи довжиною <500 слів або >500 000 слів, або які були <90% англійською.
|7 billion
|Текст
|
|2011
|<ref name=":10">{{Cite web|title=Westbury Lab Web Site: Reduced Redundancy USENET Corpus Download|url=http://www.psych.ualberta.ca/~westburylab/downloads/usenetcorpus.download.html|website=www.psych.ualberta.ca|accessdate=2022-05-20}}</ref>
|Shaoul, C., & Westbury C.
|-
|NUS SMS Corpus
|SMS-повідомлення, зібрані між двома користувачами, з аналізом часу.
|
|~ 10,000
|XML
|NLP
|2011
|<ref>{{Cite news|url=http://www.comp.nus.edu.sg/entrepreneurship/innovation/osr/corpus/|title=KAN, M. (2011, January). NUS Short Message Service (SMS) Corpus. Retrieved from}}</ref>
|KAN, M
|-
|Reddit All Comments Corpus
|Усі коментарі на Reddit (станом на 2015 рік).
|
|~ 1.7 billion
|JSON
|НЛП, дослідження
|2015
|<ref>{{Cite news|url=https://www.reddit.com/r/datasets/comments/3bxlg7/i_have_every_publicly_available_reddit_comment/|title=Stuck_In_the_Matrix. (2015, July 3). I have every publicly available Reddit comment for research. ~ 1.7 billion comments @ 250 GB compressed. Any interest in this? [Original post]. Message posted to}}</ref>
|Stuck_In_the_Matrix
|-
|Ubuntu Dialogue Corpus
|Діалоги, витягнуті з потоку чату Ubuntu на IRC.
|
|930 thousand dialogues, 7.1 million utterances
|CSV
|Dialogue Systems Research
|2015
|<ref>{{Cite news|title=The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems|url=http://dx.doi.org/10.18653/v1/w15-4640|publisher=Association for Computational Linguistics|work=Proceedings of the 16th Annual Meeting of the Special Interest Group on Discourse and Dialogue|date=2015|accessdate=2022-05-20|doi=10.18653/v1/w15-4640|first=Ryan|last=Lowe|first2=Nissan|last2=Pow|first3=Iulian|last3=Serban|first4=Joelle|last4=Pineau}}</ref>
|Lowe, R. et al.
|-
|Dialog State Tracking Challenge
|Проблеми відстеження стану діалогу 2 і 3 (DSTC2&3) були дослідницьким завданням, зосередженим на покращенні сучасного рівня відстеження стану мовних діалогових систем.
|Транскрипція розмовних діалогів з маркуванням
|DSTC2 contains ~3.2k calls – DSTC3 contains ~2.3k calls
|Json
|Відстеження стану діалогу
|2014
|<ref>{{Cite news|title=The Dialog State Tracking Challenge Series: A Review|url=https://www.microsoft.com/en-us/research/publication/the-dialog-state-tracking-challenge-series-a-review/|work=Dialogue & Discourse|date=2016-04-01|accessdate=2022-05-20|language=en-US|first=Jason|last=Williams|first2=Antoine|last2=Raux|first3=Matthew|last3=Henderson}}</ref>
|Henderson, Matthew and Thomson, Blaise and Williams, Jason D
|}

=== Інший текст ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Формат
!Створений
!Посилання
!Джерело
|-
|Web of Science Dataset
|Ієрархічні набори даних для класифікації тексту
|Немає
|46,985
|Текст
|класифікація,
Категоризація
|2017
|<ref>{{Cite news|title=HDLTex: Hierarchical Deep Learning for Text Classification|url=http://ieeexplore.ieee.org/document/8260658/|publisher=IEEE|work=2017 16th IEEE International Conference on Machine Learning and Applications (ICMLA)|date=2017-12|accessdate=2022-05-20|isbn=978-1-5386-1418-1|doi=10.1109/ICMLA.2017.0-134|pages=364–371|first=Kamran|last=Kowsari|first2=Donald E.|last2=Brown|first3=Mojtaba|last3=Heidarysafa|first4=Kiana|last4=Jafari Meimandi|first5=Matthew S.|last5=Gerber|first6=Laura E.|last6=Barnes}}</ref><ref>{{Citation|title=Web of Science Dataset|url=https://data.mendeley.com/datasets/9rw3vkcfy4/6|publisher=Mendeley|date=2018-03-15|accessdate=2022-05-20|doi=10.17632/9rw3vkcfy4.6|first=Donald|last=Brown|first2=Mojtaba|last2=Heidarysafa|first3=Kiana|last3=Jafari Meimandi|first4=Matthew|last4=Gerber|first5=Laura|last5=Barnes}}</ref>
|K. Kowsari et al.
|-
|Legal Case Reports
|Розгляд справ Федерального суду Австралії з 2006 по 2009 роки.
|Немає
|4,000
|Текст
|Підведення підсумків,
аналіз цитування
|2012
|<ref>{{Cite book
|url=http://worldcat.org/oclc/798421231
|title=Computational linguistics and intelligent text processing : 13th International Conference, CICLing 2012, New Delhi, India, March 11-17, 2012, proceedings
|last=India)
|first=CICLing (Conference) (13th : 2012 : New Delhi,
|date=2012
|publisher=Springer
|isbn=978-3-642-28604-9
|oclc=798421231
}}</ref><ref>{{Cite news|title=Summarizing large text collection using topic modeling and clustering based on MapReduce framework|url=http://www.journalofbigdata.com/content/2/1/6|work=Journal of Big Data|date=2015-12|accessdate=2022-05-20|issn=2196-1115|doi=10.1186/s40537-015-0020-5|pages=6|volume=2|issue=1|language=en|first=N K|last=Nagwani}}</ref>
|F. Galgani et al.
|-
|Blogger Authorship Corpus
|Записи в блозі 19 320 людей із blogger.com.
|Блогер сам надає стать, вік, галузь та астрологічний знак.
|681,288
|Текст
|Аналіз настроїв, узагальнення, класифікація
|2006
|<ref>{{Cite book
|url=http://worldcat.org/oclc/426169703
|title=Self-presentation and social interaction on blogs : a structural equation modeling of the uses and gratifications of blogging
|last=Qing.
|first=Tian,
|date=2009
|oclc=426169703
}}</ref><ref>Anand, Pranav, et al. "Believe Me-We Can Do This! Annotating Persuasive Acts in Blog Text."''Computational Models of Natural Argument''. 2011.

</ref>
|J. Schler et al.
|-
|Social Structure of Facebook Networks
|Великий набір даних соціальної структури Facebook.
|Немає
|Охоплено 100 коледжів
|Текст
|Аналіз мережі, кластеризація
|2012
|<ref>Traud, Amanda L., Peter J. Mucha, and Mason A. Porter. "Social structure of Facebook networks." ''Physica A: Statistical Mechanics and its Applications''391.16 (2012): 4165–4180.

</ref><ref>{{Cite news|title=Distribution of lead, zinc and calcium in Dendrobaena rubida (Oligochaeta) living in soil contaminated by base metal mining in Wales|url=https://pubmed.ncbi.nlm.nih.gov/1206|work=Comparative Biochemistry and Physiology. B, Comparative Biochemistry|date=1975-12-15|accessdate=2022-05-20|issn=0305-0491|pmid=1206|doi=10.1016/0305-0491(75)90236-9|pages=551–555|volume=52|issue=4|first=M. P.|last=Ireland}}</ref>
|A. Traud et al.
|-
|Dataset for the Machine Comprehension of Text
|Розповіді та відповідні запитання для перевірки розуміння тексту.
|Немає
|660
|Текст
|Обробка природної мови, машинне розуміння
|2013
|<ref>{{Cite news|title=Towards Machine Comprehension of Arabic Text|url=http://dx.doi.org/10.5220/0008065402820288|publisher=SCITEPRESS - Science and Technology Publications|work=Proceedings of the 11th International Joint Conference on Knowledge Discovery, Knowledge Engineering and Knowledge Management|date=2019|accessdate=2022-05-20|doi=10.5220/0008065402820288|first=Ahmad|last=Eid|first2=Nagwa|last2=El-Makky|first3=Khaled|last3=Nagi}}</ref><ref>{{Cite news|title=Caesium ion: antagonism to chlorpromazine- and L-dopa- produced behavioural depression in mice|url=https://pubmed.ncbi.nlm.nih.gov/1502|work=The Journal of Pharmacy and Pharmacology|date=1975-11|accessdate=2022-05-20|issn=0022-3573|pmid=1502|doi=10.1111/j.2042-7158.1975.tb10236.x|pages=873–874|volume=27|issue=11|first=F. S.|last=Messina}}</ref>
|M. Richardson et al.
|-
|The Penn Treebank Project
|Природний текст, анотований для мовної структури.
|Текст розбирається на семантичні дерева.
|~ 1 млн слів
|Текст
|Обробка природної мови, узагальнення
|1995
|<ref>{{Cite book
|url=http://worldcat.org/oclc/854965241
|title=Corpus linguistics : readings in a widening discipline
|last=Diana.
|first=Sampson, Geoffrey. McCarthy,
|date=2005
|publisher=Continuum
|isbn=0-8264-8803-X
|oclc=854965241
}}</ref><ref>{{Cite news|title=Head-Driven Statistical Models for Natural Language Parsing|url=https://direct.mit.edu/coli/article/29/4/589-637/1822|work=Computational Linguistics|date=2003-12|accessdate=2022-05-20|issn=0891-2017|doi=10.1162/089120103322753356|pages=589–637|volume=29|issue=4|language=en|first=Michael|last=Collins}}</ref>
|M. Marcus et al.
|-
|DEXTER Dataset
|Поставлене завдання – визначити за наведеними ознаками, які статті стосуються корпоративних придбань.
|Вилучені ознаки включають основи слів. Включені функції відволікача.
|2600
|Текст
|Класифікація
|2008
|<ref name=":11">{{Cite book
|url=http://worldcat.org/oclc/723990568
|title=Feature extraction foundations and applications
|last=Mitwirkender
|first=Guyon, Isabelle
|isbn=978-3-540-35488-8
|oclc=723990568
}}</ref>
|[[:en:Reuters|Reuters]]
|-
|Google Books N-grams
|N-грами з дуже великого корпусу книг
|Немає
|2,2 ТБ тексту
|Текст
|Класифікація, кластеризація, регресія
|2011
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1135080554
|title=Syntactically annotated Ngrams for Google Books
|last=Technology
|first=Dorothy Curtis and Slav Petrov. Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science. Massachusetts Institute of Technology. Dept. of Electrical Engineering and Computer Science. Lin, Yuri, M. Eng. Massachusetts Institute of
|date=2013-03-01
|publisher=Massachusetts Institute of Technology
|oclc=1135080554
}}</ref><ref>{{Cite news|title=Improving LSTM-based Video Description with Linguistic Knowledge
Mined from Text|url=http://dx.doi.org/10.18653/v1/d16-1204|publisher=Association for Computational Linguistics|work=Proceedings of the 2016 Conference on Empirical Methods in Natural
Language Processing|date=2016|accessdate=2022-05-20|doi=10.18653/v1/d16-1204|first=Subhashini|last=Venugopalan|first2=Lisa Anne|last2=Hendricks|first3=Raymond|last3=Mooney|first4=Kate|last4=Saenko}}</ref>
|Google
|-
|Personae Corpus
|Зібрано для експериментів із визначення авторства та передбачення особистості. Складається з 145 есе голландською мовою.
|Крім звичайних текстів наводяться синтаксично анотовані тексти.
|145
|Текст
|Класифікація, регресія
|2008
|<ref>http://www.academia.edu/download/30766398/759.pdf</ref><ref>{{Cite news|title=A Case Study of Sockpuppet Detection in Wikipedia|url=https://aclanthology.org/W13-1107|publisher=Association for Computational Linguistics|work=Proceedings of the Workshop on Language Analysis in Social Media|date=2013-06|accessdate=2022-05-27|pages=59–68|first=Thamar|last=Solorio|first2=Ragib|last2=Hasan|first3=Mainul|last3=Mizan}}</ref>
|K. Luyckx et al.
|-
|CNAE-9 Dataset
|Завдання на категоризацію для вільних текстових описів бразильських компаній.
|Вилучено частоту слів.
|1080
|Текст
|Класифікація
|2012
|<ref>{{Cite news|title=Agglomeration and Elimination of Terms for Dimensionality Reduction|url=http://dx.doi.org/10.1109/isda.2009.9|publisher=IEEE|work=2009 Ninth International Conference on Intelligent Systems Design and Applications|date=2009|accessdate=2022-05-20|doi=10.1109/isda.2009.9|first=Patrick Marques|last=Ciarelli|first2=Elias|last2=Oliveira}}</ref><ref>Zhou, Mingyuan, Oscar Hernan Madrid Padilla, and James G. Scott. "Priors for random count matrices derived from a family of negative binomial processes." ''Journal of the American Statistical Association'' just-accepted (2015): 00–00.

</ref>
|P. Ciarelli et al.
|-
|Sentiment Labeled Sentences Dataset
|3000 речень, позначених настроєм
|Настрої кожного речення вручну позначені як позитивні чи негативні.
|3000
|Текст
|Класифікація, аналіз настроїв
|2015
|<ref>{{Cite book
|url=http://worldcat.org/oclc/799995265
|title=Advances in consumer research.
|last=Memphis)
|first=Association for Consumer Research (U.S.). Conference (35th : 2007 :
|date=2008
|publisher=Association for Consumer Research
|isbn=978-0-915552-61-0
|oclc=799995265
}}</ref><ref>{{Cite news|title=Mosquito-borne arboviruses in arctic america|url=https://pubmed.ncbi.nlm.nih.gov/1602|work=Medical Biology|date=1975-10|accessdate=2022-05-20|issn=0302-2137|pmid=1602|pages=264–270|volume=53|issue=5|first=D. M.|last=Mclean}}</ref>
|D. Kotzias
|-
|BlogFeedback Dataset
|Набір даних для прогнозування кількості коментарів, які отримає публікація на основі функцій цієї публікації.
|Вилучено багато функцій кожного повідомлення.
|60,021
|Текст
|Регресія
|2014
|<ref>{{Cite book
|url=http://worldcat.org/oclc/1056912561
|title=IBM Watson projects : eight exciting projects that put artificial intelligence into practice for optimal business performance.
|last=James.
|first=Miller,
|date=2018
|publisher=Packt
|isbn=978-1-78934-669-5
|oclc=1056912561
}}</ref><ref>{{Cite news|title=Association rule mining with mostly associated sequential patterns|url=https://linkinghub.elsevier.com/retrieve/pii/S0957417414006812|work=Expert Systems with Applications|date=2015-04|accessdate=2022-05-20|doi=10.1016/j.eswa.2014.10.049|pages=2582–2592|volume=42|issue=5|language=en|first=Ömer M.|last=Soysal}}</ref>
|K. Buza
|-
|Stanford Natural Language Inference (SNLI) Corpus
|Підписи до зображень поєднуються з нещодавно створеними реченнями, щоб утворити суть, протиріччя або нейтральні пари.
|Мітки класів Entailment, синтаксичний аналіз за допомогою аналізатора Stanford PCFG
|570,000
|Текст
|Висновок природної мови/розпізнавання тексту
|2015
|<ref>{{Cite news|title=A large annotated corpus for learning natural language inference|url=http://dx.doi.org/10.18653/v1/d15-1075|publisher=Association for Computational Linguistics|work=Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing|date=2015|accessdate=2022-05-20|doi=10.18653/v1/d15-1075|first=Samuel R.|last=Bowman|first2=Gabor|last2=Angeli|first3=Christopher|last3=Potts|first4=Christopher D.|last4=Manning}}</ref>
|S. Bowman et al.
|-
|DSL Corpus Collection (DSLCC)
|Багатомовна збірка коротких уривків публіцистичних текстів схожими мовами та діалектами.
|Немає
|294,000 фраз
|Текст
|Розрізнення схожих мов
|2017
|<ref>{{Cite book
|url=http://worldcat.org/oclc/989161600
|title=Merging comparable data sources for the discrimination of similar languages the DSL corpus collection
|last=Jörg.
|first=Liling, Tan. Zampieri, Marcos. Ljubešić, Nikola, 1979- Tiedemann,
|oclc=989161600
}}</ref>
|Tan, Liling et al.
|-
|[[Urban Dictionary]] Dataset
|Корпус слів, голосів і визначень
|Імена користувачів анонімні
|2,580,925
|CSV
|НЛП, машинне розуміння
|2016 May
|<ref>{{Cite book
|url=http://dx.doi.org/10.12987/9780300258004-054
|title=Words Glossed with Definitions from Johnson’s Dictionary
|date=2021-01-05
|series=Samuel Johnson
|publisher=Yale University Press
|pages=815–818
}}</ref>
|Anonymous
|-
|T-REx
|Реферати Вікіпедії узгоджені з сутностями Вікіданих
|Вирівнювання трійок Вікіданих з тезами Вікіпедії
|11M вирівняні трійки
|JSON and NIF [3]
|НЛП, вилучення відносин
|2018
|<ref>{{Cite news|title=T-REx: A Large Scale Alignment of Natural Language with Knowledge Base Triples|url=https://aclanthology.org/L18-1544|publisher=European Language Resources Association (ELRA)|work=Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018)|date=2018-05|accessdate=2022-05-20|first=Hady|last=Elsahar|first2=Pavlos|last2=Vougiouklis|first3=Arslen|last3=Remaci|first4=Christophe|last4=Gravier|first5=Jonathon|last5=Hare|first6=Frederique|last6=Laforest|first7=Elena|last7=Simperl}}</ref>
|H. Elsahar et al.
|-
|General Language Understanding Evaluation (GLUE)
|Тест із дев’яти завдань
|Різні
|~1М речень і пар речень
|
|NLU
|2018
|<ref>{{Cite news|title=The jumping mechanism of Xenopsylla cheopis. I. Exoskeletal structures and musculature|url=https://pubmed.ncbi.nlm.nih.gov/1804|work=Philosophical Transactions of the Royal Society of London. Series B, Biological Sciences|date=1975-10-30|accessdate=2022-05-20|issn=0962-8436|pmid=1804|doi=10.1098/rstb.1975.0062|pages=457–490|volume=271|issue=914|first=M.|last=Rothschild|first2=J.|last2=Schlein}}</ref><ref>{{Cite news|title=‘But I Still Read The Bible!’|url=http://dx.doi.org/10.1093/oso/9780198722618.003.0032|work=Oxford Scholarship Online|date=2018-01-18|accessdate=2022-05-20|doi=10.1093/oso/9780198722618.003.0032|first=Dawn|last=Llewellyn}}</ref><ref>{{Cite news|title=Human vs. Muppet: A Conservative Estimate of Human Performance on the GLUE Benchmark|url=http://dx.doi.org/10.18653/v1/p19-1449|publisher=Association for Computational Linguistics|work=Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics|date=2019|accessdate=2022-05-20|doi=10.18653/v1/p19-1449|first=Nikita|last=Nangia|first2=Samuel R.|last2=Bowman}}</ref>
|Wang et al.
|-
|Contract Understanding Atticus Dataset (CUAD) (formerly known as Atticus Open Contract Dataset (AOK))
|Набір даних юридичних договорів з багатими експертними анотаціями
|
|~13 000 етикеток
|CSV and PDF
|Обробка природної мови, QnA
|2021
|
|[https://www.atticusprojectai.org/cuad The Atticus Project]
|-
|Vietnamese Image Captioning Dataset (UIT-ViIC)
|В'єтнамський набір даних підписів зображень
|
|19 250 підписів для 3 850 зображень
|CSV and PDF
|Обробка природної мови, комп’ютерний зір
|2020
|<ref>{{Cite book
|url=http://dx.doi.org/10.1007/978-3-030-63007-2_57
|title=UIT-ViIC: A Dataset for the First Evaluation on Vietnamese Image Captioning
|last=Lam
|first=Quan Hoang
|last2=Le
|first2=Quang Duy
|last3=Nguyen
|first3=Van Kiet
|last4=Nguyen
|first4=Ngan Luu-Thuy
|date=2020
|series=Computational Collective Intelligence
|publisher=Springer International Publishing
|location=Cham
|pages=730–742
|isbn=978-3-030-63006-5
}}</ref>
|Lam et al.
|-
|Vietnamese Names annotated with Genders (UIT-ViNames)
|В’єтнамські назви з анотаціями статей
|
|26 850 в’єтнамських повних імен із анотацією статі
|CSV
|Обробка природної мови
|2020
|<ref>{{Cite news|title=Gender Prediction Based on Vietnamese Names with Machine Learning Techniques|url=http://dx.doi.org/10.1145/3443279.3443309|publisher=ACM|work=Proceedings of the 4th International Conference on Natural Language Processing and Information Retrieval|date=2020-12-18|accessdate=2022-05-20|doi=10.1145/3443279.3443309|first=Huy Quoc|last=To|first2=Kiet Van|last2=Nguyen|first3=Ngan Luu-Thuy|last3=Nguyen|first4=Anh Gia-Tuan|last4=Nguyen}}</ref>
|To et al.
|-
|Vietnamese Constructive and Toxic Speech Detection Dataset (UIT-ViCTSD)
|В'єтнамський набір даних для виявлення конструктивної та токсичної мови
|
|10 000 в'єтнамських користувачів прокоментували інтернет-газети в 10 доменах
|CSV
|Обробка природної мовиОбробка природної мови
|2021
|<ref>{{Cite news|title=New medium for isolating iron-oxidizing and heterotrophic acidophilic bacteria from acid mine drainage|url=https://pubmed.ncbi.nlm.nih.gov/2103|work=Applied Microbiology|date=1975-12|accessdate=2022-05-20|issn=0003-6919|pmc=PMC376583|pmid=2103|doi=10.1128/am.30.6.1010-1016.1975|pages=1010–1016|volume=30|issue=6|first=H. L.|last=Manning}}</ref>
|Nguyen et al.
|-
|The Pile
|Збірка кількох великих наборів даних із різноманітних і неструктурованих текстів
|Різні (видалення HTML і Javascript з веб-сайтів, видалення повторюваних речень)
|825 ГіБ англійським текстом
|JSON<ref>{{Cite web|title=The Pile|url=https://pile.eleuther.ai/|website=pile.eleuther.ai|accessdate=2022-05-27}}</ref> <ref>{{Cite web|title=JSON Lines|url=https://jsonlines.org/|website=jsonlines.org|accessdate=2022-05-27}}</ref>Lines
|Обробка природної мови, передбачення тексту
|2021
|<ref>{{Cite news|title=Role of acetate metabolism in sporulation of Saccharomyces carlsbergensis|url=https://pubmed.ncbi.nlm.nih.gov/2101|work=Antonie Van Leeuwenhoek|date=1975|accessdate=2022-05-20|issn=0003-6072|pmid=2101|doi=10.1007/BF02565062|pages=265–271|volume=41|issue=3|first=C. P.|last=Görts}}</ref><ref>{{Cite web|title=The Pile|url=https://pile.eleuther.ai/|website=pile.eleuther.ai|accessdate=2022-05-20}}</ref>
|Gao et
|}

== Звукові дані ==
Ці набори даних складаються зі звуків і звукових функцій, які використовуються для таких завдань, як розпізнавання мовлення та синтез мовлення.

=== Мовлення ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Zero Resource Speech Challenge 2015
|Спонтанне мовлення (англійська мова), Читана мова (Xitsonga).
|Немає, необроблені файли WAV.
|англійська: 5 год, 12 динаміків; Xitsonga: 2:30, 24 динаміки
|WAV (audio only)
|Неконтрольоване виявлення мовних властивостей/підрядних одиниць/одиниць слів
|2015
|<ref>M. Versteegh, R. Thiollière, T. Schatz, X.-N. Cao, X. Anguera, A. Jansen, and E. Dupoux (2015). "The Zero Resource Speech Challenge 2015," in INTERSPEECH-2015.

</ref><ref>{{Cite news|url=https://core.ac.uk/download/pdf/82574050.pdf|title=M. Versteegh, X. Anguera, A. Jansen, and E. Dupoux, (2016).}}</ref>
|Versteegh et al.
|-
|Parkinson Speech Dataset
|Багато записів людей із хворобою Паркінсона та без неї.
|Вилучено голосові характеристики, оцінка захворювання лікарем за уніфікованою шкалою оцінки [[:en:Unified_Parkinson's_disease_rating_scale|хвороби Паркінсона]].
|1,040
|Текст
|Класифікація, регресія
|2013
|<ref>{{Cite news|title=Collection and Analysis of a Parkinson Speech Dataset With Multiple Types of Sound Recordings|url=https://ieeexplore.ieee.org/document/6451090/|work=IEEE Journal of Biomedical and Health Informatics|date=2013-07|accessdate=2022-05-26|issn=2168-2208|doi=10.1109/JBHI.2013.2245674|pages=828–834|volume=17|issue=4|first=Betul Erdogdu|last=Sakar|first2=M. Erdem|last2=Isenkul|first3=C. Okan|last3=Sakar|first4=Ahmet|last4=Sertbas|first5=Fikret|last5=Gurgen|first6=Sakir|last6=Delil|first7=Hulya|last7=Apaydin|first8=Olcay|last8=Kursun}}</ref><ref>{{Cite news|url=https://www.researchgate.net/profile/Steven_Livingstone2/publication/267623907_Automatic_detection_of_expressed_emotion_in_Parkinson%27s_Disease/links/5453af1d0cf26d5090a54cfe/Automatic-detection-of-expressed-emotion-in-Parkinsons-Disease.pdf|title=Zhao, Shunan, et al. "Automatic detection of expressed emotion in Parkinson's disease." Acoustics, Speech and Signal Processing (ICASSP), 2014 IEEE International Conference on. IEEE, 2014.}}</ref>
|B. E. Sakar et al.
|-
|Spoken Arabic Digits
|Розмовні арабські цифри з 44 чоловіків і 44 жінок.
|Часові ряди коефіцієнтів [[MFCC|мел-частотного кепстру]].
|8,800
|Текст
|Класифікація
|2010
|<ref>Used in: Hammami, Nacereddine, and Mouldi Bedda. "Improved tree model for Arabic speech recognition." ''Computer Science and Information Technology (ICCSIT), 2010 3rd IEEE International Conference on''. Vol. 5. IEEE, 2010.

</ref><ref>{{Cite news|url=https://lvdmaaten.github.io/publications/papers/ICML_2011.pdf|title=Maaten, Laurens.}}</ref>
|M. Bedda et al.
|-
|ISOLET Dataset
|Назви розмовних букв.
|Особливості, витягнуті зі звуків.
|7797
|Текст
|Класифікація
|1994
|<ref>{{Cite news|title=Spoken Letter Recognition|url=https://aclanthology.org/H90-1075|work=Speech and Natural Language: Proceedings of a Workshop Held at Hidden Valley, Pennsylvania, June 24-27,1990|date=1990|accessdate=2022-05-26|first=Ronald|last=Cole|first2=Mark|last2=Fanty}}</ref><ref>{{Cite news|url=http://www.jmlr.org/papers/volume9/chapelle08a/chapelle08a.pdf|title=Chapelle, Olivier; Sindhwani, Vikas; Keerthi, Sathiya S. (2008).}}</ref>
|R. Cole et al.
|-
|Japanese Vowels Dataset
|Дев'ять чоловіків, які говорять, вимовляли дві японські голосні підряд.
|Застосував до нього 12-градусний аналіз лінійного прогнозування, щоб отримати дискретно-часовий ряд з 12 коефіцієнтами кепстру.
|640
|Текст
|Класифікація
|1999
|<ref>{{Cite news|title=Multidimensional curve classification using passing-through regions|url=https://www.sciencedirect.com/science/article/pii/S016786559900077X|work=Pattern Recognition Letters|date=1999-11-01|accessdate=2022-05-26|issn=0167-8655|doi=10.1016/S0167-8655(99)00077-X|pages=1103–1111|volume=20|issue=11|language=en|first=Mineichi|last=Kudo|first2=Jun|last2=Toyama|first3=Masaru|last3=Shimbo}}</ref><ref>{{Cite news|title=Optimization and applications of echo state networks with leaky- integrator neurons|url=https://www.sciencedirect.com/science/article/pii/S089360800700041X|work=Neural Networks|date=2007-04-01|accessdate=2022-05-26|issn=0893-6080|doi=10.1016/j.neunet.2007.04.016|pages=335–352|volume=20|issue=3|language=en|first=Herbert|last=Jaeger|first2=Mantas|last2=Lukoševičius|first3=Dan|last3=Popovici|first4=Udo|last4=Siewert}}</ref>
|M. Kudo et al.
|-
|Parkinson's Telemonitoring Dataset
|Багато записів людей із хворобою Паркінсона та без неї.
|Вилучено звукові характеристики.
|5875
|Текст
|Класифікація
|2009
|<ref>{{Cite news|title=Accurate Telemonitoring of Parkinson's Disease Progression by Noninvasive Speech Tests|url=https://ieeexplore.ieee.org/document/5339170/|work=IEEE Transactions on Biomedical Engineering|date=2010-04|accessdate=2022-05-26|issn=1558-2531|doi=10.1109/TBME.2009.2036000|pages=884–893|volume=57|issue=4|first=Athanasios|last=Tsanas|first2=Max A.|last2=Little|first3=Patrick E.|last3=McSharry|first4=Lorraine O.|last4=Ramig}}</ref><ref>{{Cite news|title=Wireless Technology in Disease Management and Medicine|url=https://www.annualreviews.org/doi/10.1146/annurev-med-051210-114650|work=Annual Review of Medicine|date=2012-02-18|accessdate=2022-05-26|issn=0066-4219|doi=10.1146/annurev-med-051210-114650|pages=479–492|volume=63|issue=1|first=Gari D.|last=Clifford|first2=David|last2=Clifton}}</ref>
|A. Tsanas et al.
|-
|[[:en:TIMIT|TIMIT]]
|Записи 630 носіїв восьми основних діалектів американської англійської, кожен з яких читає десять фонетично насичених речень.
|Мовлення лексично і фонематично транскрибується.
|6300
|Текст
|Розпізнавання мовлення, класифікація.
|1986
|<ref>{{Cite news|title=Speech database development at MIT: Timit and beyond|url=https://www.sciencedirect.com/science/article/pii/0167639390900107|work=Speech Communication|date=1990-08-01|accessdate=2022-05-26|issn=0167-6393|doi=10.1016/0167-6393(90)90010-7|pages=351–356|volume=9|issue=4|language=en|first=Victor|last=Zue|first2=Stephanie|last2=Seneff|first3=James|last3=Glass}}</ref><ref>Kapadia, Sadik, Valtcho Valtchev, and S. J. Young. "MMI training for continuous phoneme recognition on the TIMIT database." ''Acoustics, Speech, and Signal Processing, 1993. ICASSP-93., 1993 IEEE International Conference on''. Vol. 2. IEEE, 1993.

</ref>
|J. Garofolo et al.
|-
|[[:en:Arabic_Speech_Corpus|Arabic Speech Corpus]]
|Корпус мовлення сучасної стандартної арабської мови (MSA) для одного мовця з фонетичними та орфографічними транскриптами, вирівняними на рівні фонем.
|Мовлення орфографічно і фонетично транскрибується з наголосами.
|~1900
|Текст, WAV
|Синтез мовлення, розпізнавання мовлення, вирівнювання корпусу, логопедія, освіта.
|2016
|<ref>{{Cite news|title=University of Southampton|url=https://en.wikipedia.org/w/index.php?title=University_of_Southampton&oldid=1087923025|work=Wikipedia|date=2022-05-15|accessdate=2022-05-27|language=en}}</ref>
|N. Halabi
|-
|[[:en:Common_Voice|Common Voice]]
|Загальнодоступна база даних краудсорсингу в широкому діапазоні діалектів.
|Перевірка іншими користувачами.
|English: 1,118 hours
|MP3 з відповідними текстовими файлами
|Розпізнавання мови
|June 2017 (December 2019)
|<ref>{{Cite news|title=Common Voice: A Massively-Multilingual Speech Corpus|url=http://arxiv.org/abs/1912.06670|work=arXiv:1912.06670 [cs]|date=2020-03-05|accessdate=2022-05-26|first=Rosana|last=Ardila|first2=Megan|last2=Branson|first3=Kelly|last3=Davis|first4=Michael|last4=Henretty|first5=Michael|last5=Kohler|first6=Josh|last6=Meyer|first7=Reuben|last7=Morais|first8=Lindsay|last8=Saunders|first9=Francis M.|last9=Tyers}}</ref>
|[[:en:Mozilla|Mozilla]]
|-
|LJSpeech
|Корпус англійських записів аудіокниг, які є загальнодоступними, розбитими на короткі кліпи за розділовими знаками.
|Перевірка якості, нормалізована транскрипція поряд з оригіналом.
|13,100
|CSV, WAV
|Синтез мовлення
|2017
|<ref>{{Cite web|title=The LJ Speech Dataset|url=https://keithito.com/LJ-Speech-Dataset|website=keithito.com|accessdate=2022-05-26}}</ref>
|Keith Ito, Linda Johnson
|}

=== Музика ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Geographic Origin of Music Data Set
|Звукові особливості музичних зразків з різних місць.
|Функції аудіо, отримані за допомогою програмного забезпечення MARSYAS.
|1,059
|Текст
|Географічна класифікація, кластеризація
|2014
|<ref>{{Cite news|title=Predicting the Geographical Origin of Music|url=https://ieeexplore.ieee.org/abstract/document/7023456/|work=2014 IEEE International Conference on Data Mining|date=2014-12|accessdate=2022-05-26|doi=10.1109/ICDM.2014.73|pages=1115–1120|first=Fang|last=Zhou|first2=Q.|last2=Claire|first3=Ross D.|last3=King}}</ref><ref>{{Cite news|title=On the use of the observation-wise k -fold operation in PCA cross-validation: The k -fold operation in cross-validation|url=https://onlinelibrary.wiley.com/doi/10.1002/cem.2726|work=Journal of Chemometrics|date=2015-08|accessdate=2022-05-26|doi=10.1002/cem.2726|pages=467–478|volume=29|issue=8|language=en|first=Edoardo|last=Saccenti|first2=José|last2=Camacho}}</ref>
|F. Zhou et al.
|-
|Million Song Dataset
|Звукові функції з мільйона різних пісень.
|Функції аудіо вилучено.
|1M
|Текст
|Класифікація, кластеризація
|2011
|<ref>Bertin-Mahieux, Thierry, et al. "The million song dataset." ''ISMIR 2011: Proceedings of the 12th International Society for Music Information Retrieval Conference, 24–28 October 2011, Miami, Florida''. University of Miami, 2011.

</ref><ref>{{Cite news|title=Unsupervised learning of acoustic unit descriptors for audio content representation and classification|url=http://dx.doi.org/10.21437/interspeech.2011-602|publisher=ISCA|work=Interspeech 2011|date=2011-08-27|accessdate=2022-05-27|doi=10.21437/interspeech.2011-602|first=Sourish|last=Chaudhuri|first2=Mark|last2=Harvilla|first3=Bhiksha|last3=Raj}}</ref>
|T. Bertin-Mahieux et al.
|-
|MUSDB18
|Багатодоріжкові записи популярної музики
|Сирий звук
|150
|MP4, WAV
|Поділ джерел
|2017
|<ref>{{Citation|title=MUSDB18 - a corpus for music separation|url=https://zenodo.org/record/1117372|publisher=Zenodo|date=2017-12-17|accessdate=2022-05-26|doi=10.5281/zenodo.1117372|first=Zafar|last=Rafii|first2=Antoine|last2=Liutkus|first3=Fabian-Robert|last3=Stöter|first4=Stylianos Ioannis|last4=Mimilakis|first5=Rachel|last5=Bittner}}</ref>
|Z. Rafii et al.
|-
|[[:en:Free_Music_Archive|Free Music Archive]]
|Аудіо під Creative Commons із 100 тисяч пісень (343 дні, 1TiB) з ієрархією із 161 жанру, метаданими, даними користувача, текстом у довільній формі.
|Функції необробленого звуку та аудіо.
|106,574
|Текст , MP3
|Класифікація, рекомендація
|2017
|<ref>{{Cite news|title=FMA: A Dataset For Music Analysis|url=http://arxiv.org/abs/1612.01840|work=arXiv:1612.01840 [cs]|date=2017-09-05|accessdate=2022-05-26|first=Michaël|last=Defferrard|first2=Kirell|last2=Benzi|first3=Pierre|last3=Vandergheynst|first4=Xavier|last4=Bresson}}</ref>
|M. Defferrard et al.
|-
|Bach Choral Harmony Dataset
|Хоральні акорди Баха.
|Функції аудіо вилучено.
|5665
|Текст
|Класифікація
|2014
|<ref>{{Cite news|url=http://www.jmlr.org/papers/volume10/esposito09a/esposito09a.pdf|title=Esposito, Roberto; Radicioni, Daniele P. (2009).}}</ref><ref>{{Cite news|title=Classification Active Learning Based on Mutual Information|url=https://www.mdpi.com/1099-4300/18/2/51|work=Entropy|date=2016-02|accessdate=2022-05-26|issn=1099-4300|doi=10.3390/e18020051|pages=51|volume=18|issue=2|language=en|first=Jamshid|last=Sourati|first2=Murat|last2=Akcakaya|first3=Jennifer G.|last3=Dy|first4=Todd K.|last4=Leen|first5=Deniz|last5=Erdogmus}}</ref>
|D. Radicioni et al.
|}

=== Інші звуки. Класифікація ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|UrbanSound
|Марковані звукозаписи звуків, таких як кондиціонери, автомобільні гудки та діти, які грають.
|Відсортовано по папках за класом подій, а також метаданими у файлі JSON та анотаціями у файлі CSV.
|1,059
|Звук
(WAV)
|Класифікація
|2014
|<ref>{{Cite news|url=https://www.researchgate.net/profile/Justin_Salamon/publication/267269056_A_Dataset_and_Taxonomy_for_Urban_Sound_Research/links/544936af0cf2f63880810a84/A-Dataset-and-Taxonomy-for-Urban-Sound-Research.pdf|title=Salamon, Justin; Jacoby, Christopher; Bello, Juan Pablo.}}</ref><ref>{{Cite news|title=An evaluation framework for event detection using a morphological model of acoustic scenes|url=http://arxiv.org/abs/1502.00141|work=arXiv:1502.00141 [cs, stat]|date=2015-01-31|accessdate=2022-05-27|first=Mathieu|last=Lagrange|first2=Grégoire|last2=Lafay|first3=Mathias|last3=Rossignol|first4=Emmanouil|last4=Benetos|first5=Axel|last5=Roebel}}</ref>
|J. Salamon et al.
|-
|AudioSet
|10-секундні звукові фрагменти з відео YouTube та онтологія з понад 500 міток.
|128-d PCA'd VGG-ish показує кожні 1 секунду.
|2,084,320
|Текстові (CSV) і файли TensorFlow Record
|Класифікація
|2017
|<ref>{{Cite news|title=International Conference on Acoustics, Speech, and Signal Processing|url=https://en.wikipedia.org/w/index.php?title=International_Conference_on_Acoustics,_Speech,_and_Signal_Processing&oldid=1017458880|work=Wikipedia|date=2021-04-12|accessdate=2022-05-27|language=en}}</ref>
|J. Gemmeke et al., Google
|-
|Bird Audio Detection challenge
|Аудіо зі станцій моніторингу навколишнього середовища, а також записи з краудсорсингу
|
|17,000+
|
|Класифікація
|2016 (2018)
|<ref>{{Cite web|title=Watch out, birders: Artificial intelligence has learned to spot birds from their songs|url=https://www.science.org/content/article/watch-out-birders-artificial-intelligence-has-learned-spot-birds-their-songs|website=www.science.org|accessdate=2022-05-27|language=en}}</ref><ref>{{Cite web|title=Bird Audio Detection challenge|url=http://machine-listening.eecs.qmul.ac.uk/bird-audio-detection-challenge/|website=Machine Listening Lab|date=2016-05-03|accessdate=2022-05-27|language=en-US}}</ref>
|[[Лондонський університет королеви Марії|Queen Mary University]] and [[:en:IEEE_Signal_Processing_Society|IEEE Signal Processing Society]]
|-
|WSJ0 Hipster Ambient Mixtures
|Аудіо з WSJ0 змішано з шумом, записаним у районі затоки Сан-Франциско
|Кліпи з шумом, відповідні кліпам WSJ0
|28,000
|Звук(WAV)
|Розділення джерел звуку
|2019
|<ref>{{Cite news|title=WHAM!: Extending Speech Separation to Noisy Environments|url=http://arxiv.org/abs/1907.01160|work=arXiv:1907.01160 [cs, eess, stat]|date=2019-07-02|accessdate=2022-05-27|first=Gordon|last=Wichern|first2=Joe|last2=Antognini|first3=Michael|last3=Flynn|first4=Licheng Richard|last4=Zhu|first5=Emmett|last5=McQuinn|first6=Dwight|last6=Crow|first7=Ethan|last7=Manilow|first8=Jonathan Le|last8=Roux}}</ref>
|Wichern, G., et al., Whisper and MERL
|-
|Clotho
|4981 звуковий зразок тривалістю від 15 до 30 секунд, кожен з яких має п’ять різних підписів довжиною від 8 до 20 слів.
|
|24,905
|Звук (WAV) та текст(CSV)
|Автоматичні субтитри
|2020
|<ref>{{Cite news|title=International Conference on Acoustics, Speech, and Signal Processing|url=https://en.wikipedia.org/w/index.php?title=International_Conference_on_Acoustics,_Speech,_and_Signal_Processing&oldid=1017458880|work=Wikipedia|date=2021-04-12|accessdate=2022-05-27|language=en}}</ref><ref>{{Citation|title=Clotho dataset|url=https://zenodo.org/record/3490684|publisher=Zenodo|date=2019-10-15|accessdate=2022-05-27|doi=10.5281/zenodo.3490684|first=Konstantinos|last=Drossos|first2=Samuel|last2=Lipping|first3=Tuomas|last3=Virtanen}}</ref>
|K. Drossos, S. Lipping, and T. Virtanen
|}

== Дані сигналу ==
Набори даних, що містять інформацію про електричний сигнал, що вимагає певної обробки сигналу для подальшого аналізу.

=== Електричні ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створений
!Посилання
!Джерело
|-
|Witty Worm Dataset
|Набір даних із детальною інформацією про поширення хробака Witty та заражених комп’ютерів.
|Розділіть на загальнодоступний набір і обмежений набір, що містить більш конфіденційну інформацію, як-от заголовки IP і UDP.
|55,909 IP addresses
|Текст
|Класифікація
|2004
|<ref>{{Cite web|title=UCSD Network Telescope -- Witty Worm Dataset|url=https://www.caida.org/catalog/datasets/witty_worm_dataset/|website=CAIDA|date=2005-03-16|accessdate=2022-05-25|language=en}}</ref><ref>{{Cite web|title=Wayback Machine|url=https://web.archive.org/web/20190806022753/https://pdfs.semanticscholar.org/672e/7be9499fef9a7ff6b131b650a4de7614aae8.pdf|website=web.archive.org|accessdate=2022-05-27}}</ref>
|Center for Applied Internet Data Analysis
|-
|Cuff-Less Blood Pressure Estimation Dataset
|Очищені життєво важливі сигнали від пацієнтів, які можна використовувати для оцінки артеріального тиску.
|Життєві показники 125 Гц очищено.
|12,000
|Текст
|Класифікація, регресія
|2015
|<ref>PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." ''Circulation. v101 i23. e215-e220''.

</ref><ref>PhysioBank, PhysioToolkit. "PhysioNet: components of a new research resource for complex physiologic signals." ''Circulation. v101 i23. e215-e220''.

</ref>
|M. Kachuee et al.
|-
|Gas Sensor Array Drift Dataset
|Вимірювання з 16 хімічних датчиків, використаних у моделюванні для компенсації дрейфу.
|Велика кількість наданих функцій.
|13,910
|Текст
|Класифікація
|2012
|<ref>{{Cite news|title=Chemical gas sensor drift compensation using classifier ensembles|url=https://www.sciencedirect.com/science/article/pii/S0925400512002018|work=Sensors and Actuators B: Chemical|date=2012-05-20|accessdate=2022-05-25|issn=0925-4005|doi=10.1016/j.snb.2012.01.074|pages=320–329|volume=166-167|language=en|first=Alexander|last=Vergara|first2=Shankar|last2=Vembu|first3=Tuba|last3=Ayhan|first4=Margaret A.|last4=Ryan|first5=Margie L.|last5=Homer|first6=Ramón|last6=Huerta}}</ref><ref>{{Cite news|title=Engineering approaches to improvement of conductometric gas sensor parameters. Part 2: Decrease of dissipated (consumable) power and improvement stability and reliability|url=https://www.sciencedirect.com/science/article/pii/S0925400514003451|work=Sensors and Actuators B: Chemical|date=2014-07-31|accessdate=2022-05-27|issn=0925-4005|doi=10.1016/j.snb.2014.03.069|pages=316–341|volume=198|language=en|first=G.|last=Korotcenkov|first2=B. K.|last2=Cho}}</ref>
|A. Vergara
|-
|Servo Dataset
|Дані, що охоплюють нелінійні співвідношення, що спостерігаються в схемі сервопідсилювача.
|Наведено рівні різних компонентів як функції інших компонентів.
|167
|Текст
|Регресія
|1993
|<ref>{{Cite news|url=https://sci2s.ugr.es/keel/pdf/algorithm/congreso/1992-Quinlan-AI.pdf|title=Quinlan, John R (1992).}}</ref><ref>{{Cite news|title=A Principal Components Approach to Combining Regression Estimates|url=https://doi.org/10.1023/A:1007507221352|work=Machine Learning|date=1999-07-01|accessdate=2022-05-27|issn=1573-0565|doi=10.1023/A:1007507221352|pages=9–32|volume=36|issue=1|language=en|first=Christopher J.|last=Merz|first2=Michael J.|last2=Pazzani}}</ref>
|K. Ullrich
|-
|UJIIndoorLoc-Mag Dataset
|База даних локалізації всередині приміщень для тестування внутрішніх систем позиціонування. Дані базуються на магнітному полі.
|Дано розділи на тренування та тести.
|40,000
|Текст
|Класифікація, регресія, кластеризація
|2015
|<ref>{{Cite news|title=UJIIndoorLoc-Mag: A new database for magnetic field-based localization problems|url=http://dx.doi.org/10.1109/ipin.2015.7346763|publisher=IEEE|work=2015 International Conference on Indoor Positioning and Indoor Navigation (IPIN)|date=2015-10|accessdate=2022-05-27|doi=10.1109/ipin.2015.7346763|first=Joaquin|last=Torres-Sospedra|first2=David|last2=Rambla|first3=Raul|last3=Montoliu|first4=Oscar|last4=Belmonte|first5=Joaquin|last5=Huerta}}</ref><ref>{{Cite news|url=https://www.researchgate.net/profile/Raf_Berkvens/publication/284154212_Mean_Mutual_Information_of_Probabilistic_Wi-Fi_Localization/links/564c6b7508aeab8ed5e92fcb.pdf|title=Berkvens, Rafael, Maarten Weyn, and Herbert Peremans.}}</ref>
|D. Rambla et al.
|-
|Sensorless Drive Diagnosis Dataset
|Електричні сигнали від двигунів з несправними компонентами.
|Вилучено статистичні ознаки.
|58,508
|Текст
|Класифікація
|2015
|<ref>Paschke, Fabian, et al. "Sensorlose Zustandsüberwachung an Synchronmotoren."''Proceedings. 23. Workshop Computational Intelligence, Dortmund, 5.-6. Dezember 2013''. KIT Scientific Publishing, 2013.

</ref><ref>{{Cite news|url=https://www.researchgate.net/profile/Olaf_Enge-Rosenblatt/publication/264441239_Data_Acquisition_and_Signal_Analysis_from_Measured_Motor_Currents_for_Defect_Detection_in_Electromechanical_Drive_Systems/links/53df97e90cf2a768e49bb3b9.pdf|title=Lessmeier, Christian, et al.}}</ref>
|M. Bator
|}

=== Відстеження рух ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створенний
!Посилання
!Джерело
|-
|Wearable Computing: Classification of Body Postures and Movements (PUC-Rio)
|Люди, які виконують п’ять стандартних дій під час носіння трекерів руху.
|Немає
|165,632
|Текст
|Класифікація
|2013
|<ref>{{Cite news|url=http://groupware.secondlab.inf.puc-rio.br/public/papers/2012.Ugulino.WearableComputing.HAR.Classifier.RIBBON.pdf|title=Ugulino, Wallace, et al.}}</ref><ref>{{Cite news|title=Augmenting the Senses: A Review on Sensor-Based Learning Support|url=https://www.mdpi.com/1424-8220/15/2/4097|work=Sensors|date=2015-02|accessdate=2022-05-26|issn=1424-8220|pmc=PMC4367401|pmid=25679313|doi=10.3390/s150204097|pages=4097–4133|volume=15|issue=2|language=en|first=Jan|last=Schneider|first2=Dirk|last2=Börner|first3=Peter|last3=Van Rosmalen|first4=Marcus|last4=Specht}}</ref>
|[[:en:Pontifical_Catholic_University_of_Rio_de_Janeiro|Pontifical Catholic University of Rio de Janeiro]]
|-
|Gesture Phase Segmentation Dataset
|Функції, отримані з відео людей, які роблять різні жести.
|Вилучені функції спрямовані на вивчення фазової сегментації жестів.
|9900
|Текст
|Класифікація, кластеризація
|2014
|<ref>{{Cite news|url=https://tarjomefa.com/wp-content/uploads/2016/11/5781-English.pdf|title=Madeo, Renata CB, Clodoaldo AM Lima, and Sarajane M. Peres.}}</ref><ref>{{Cite news|title=A Survey of Applications and Human Motion Recognition with Microsoft Kinect|url=https://www.worldscientific.com/doi/abs/10.1142/S0218001415550083|work=International Journal of Pattern Recognition and Artificial Intelligence|date=2015-08-01|accessdate=2022-05-26|issn=0218-0014|doi=10.1142/S0218001415550083|pages=1555008|volume=29|issue=05|first=Roanna|last=Lun|first2=Wenbing|last2=Zhao}}</ref>
|R. Madeo et a
|-
|Vicon Physical Action Data Set Dataset
|10 звичайних і 10 агресивних фізичних дій, які вимірюють активність людини, яку відстежує 3D-трекер.
|Багато параметрів записує 3D трекер.
|3000
|Текст
|Класифікація
|2011
|<ref>{{Cite news|url=https://cswww.sx.ac.uk/staff/hhu/Papers/ROBIO07-66.pdf|title=Theodoridis, Theodoros, and Huosheng Hu.}}</ref><ref>{{Cite news|title=3D human action recognition and style transformation using resilient backpropagation neural networks|url=https://ieeexplore.ieee.org/abstract/document/5357690/|work=2009 IEEE International Conference on Intelligent Computing and Intelligent Systems|date=2009-11|accessdate=2022-05-26|doi=10.1109/ICICISYS.2009.5357690|pages=296–301|volume=4|first=Seyed Ali|last=Etemad|first2=Ali|last2=Arya}}</ref>
|T. Theodoridis
|-
|Daily and Sports Activities Dataset
|Дані датчиків двигуна для 19 щоденних і спортивних занять.
|Надано багато датчиків, без попередньої обробки сигналів.
|9120
|Текст
|Класифікація
|2013
|<ref>{{Cite news|title=Comparative study on classifying human activities with miniature inertial and magnetic sensors|url=https://www.sciencedirect.com/science/article/pii/S0031320310001950|work=Pattern Recognition|date=2010-10-01|accessdate=2022-05-26|issn=0031-3203|doi=10.1016/j.patcog.2010.04.019|pages=3605–3620|volume=43|issue=10|language=en|first=Kerem|last=Altun|first2=Billur|last2=Barshan|first3=Orkun|last3=Tunçel}}</ref><ref>{{Cite news|title=Using tri-axial acceleration data to identify behavioral modes of free-ranging animals: general concepts and tools illustrated for griffon vultures|url=https://doi.org/10.1242/jeb.058602|work=Journal of Experimental Biology|date=2012-03-15|accessdate=2022-05-26|issn=0022-0949|pmc=PMC3284320|pmid=22357592|doi=10.1242/jeb.058602|pages=986–996|volume=215|issue=6|first=Ran|last=Nathan|first2=Orr|last2=Spiegel|first3=Scott|last3=Fortmann-Roe|first4=Roi|last4=Harel|first5=Martin|last5=Wikelski|first6=Wayne M.|last6=Getz}}</ref>
|B. Barshan et al.
|-
|Human Activity Recognition Using Smartphones Dataset
|Дані гіроскопа та акселерометра від людей, які носять смартфони та виконують звичайні дії.
|Виконані дії позначаються, всі сигнали попередньо обробляються на наявність шуму.
|10,299
|Текст
|Класифікація
|2012
|<ref>{{Cite news|url=https://upcommons.upc.edu/bitstream/handle/2117/101769/IWAAL2012.pdf|title=Anguita, Davide, et al.}}</ref><ref>{{Cite news|title=Activity recognition with smartphone sensors|url=https://ieeexplore.ieee.org/document/6838194/|work=Tsinghua Science and Technology|date=2014-06|accessdate=2022-05-26|issn=1007-0214|doi=10.1109/TST.2014.6838194|pages=235–249|volume=19|issue=3|first=Xing|last=Su|first2=Hanghang|last2=Tong|first3=Ping|last3=Ji}}</ref>
|J. Reyes-Ortiz et al.
|-
|Australian Sign Language Signs
|Австралійські знаки жестовою мовою, зняті рукавичками для відстеження руху.
|Немає
|2565
|Текст
|Класифікація
|2002
|<ref>{{Cite news|title=Temporal classification: extending the classification paradigm to multivariate time series|url=https://www.semanticscholar.org/paper/Temporal-classification%3A-extending-the-paradigm-to-Kadous/4badc3f0ad169ed9ec7d073375e9b168fa9f6c8f|work=undefined|date=2002|accessdate=2022-05-26|language=en|first=M. W.|last=Kadous}}</ref><ref>{{Cite news|title=List of datasets for machine-learning research|url=https://en.wikipedia.org/w/index.php?title=List_of_datasets_for_machine-learning_research&oldid=1088499984|work=Wikipedia|date=2022-05-18|accessdate=2022-05-26|language=en}}</ref>
|M. Kadous
|-
|Weight Lifting Exercises monitored with Inertial Measurement Units
|П’ять варіантів вправи на скручування біцепса, що контролюються за допомогою IMU.
|Деякі статистичні дані, розраховані на основі необроблених даних.
|39,242
|Текст
|Класифікація
|2013
|<ref>{{Cite news|url=https://www.perceptualui.org/publications/velloso13_ah.pdf|title=Velloso, Eduardo, et al.}}</ref><ref>{{Cite news|url=http://www.thehabitslab.com/assets/papers/28.pdf|title=Mortazavi, Bobak Jack, et al.}}</ref>
|W. Ugulino et al.
|-
|sEMG for Basic Hand movements Dataset
|Дві бази даних поверхневих електроміографічних сигналів 6 рухів рук.
|Немає
|3000
|Текст
|Класифікація
|2014
|<ref>{{Cite news|url=https://www.researchgate.net/profile/Christos_Sapsanis/publication/257602303_Improving_EMG_based_classification_of_basic_hand_movements_using_EMD/links/56dfb7fd08ae979addef64a2/Improving-EMG-based-classification-of-basic-hand-movements-using-EMD.pdf|title=Sapsanis, Christos, et al.}}</ref><ref name=":14">{{Cite news|title=Development and Control of a Multifunctional Prosthetic Hand with Shape Memory Alloy Actuators|url=https://doi.org/10.1007/s10846-014-0061-6|work=Journal of Intelligent & Robotic Systems|date=2015-05-01|accessdate=2022-05-26|issn=1573-0409|doi=10.1007/s10846-014-0061-6|pages=257–289|volume=78|issue=2|language=en|first=Konstantinos|last=Andrianesis|first2=Anthony|last2=Tzes}}</ref>
|C. Sapsanis et al.
|-
|REALDISP Activity Recognition Dataset
|Оцініть методи, що стосуються впливу зміщення датчика при розпізнаванні активності, що можна носити.
|Немає
|1419
|Текст
|Класифікація
|2014
|<ref name=":14"/><ref>{{Cite news|title=Dealing with the Effects of Sensor Displacement in Wearable Activity Recognition|url=https://www.mdpi.com/1424-8220/14/6/9995|work=Sensors|date=2014-06|accessdate=2022-05-26|issn=1424-8220|pmc=PMC4118358|pmid=24915181|doi=10.3390/s140609995|pages=9995–10023|volume=14|issue=6|language=en|first=Oresti|last=Banos|first2=Mate Attila|last2=Toth|first3=Miguel|last3=Damas|first4=Hector|last4=Pomares|first5=Ignacio|last5=Rojas}}</ref>
|O. Banos et al.
|-
|Heterogeneity Activity Recognition Dataset
|Дані з кількох різних розумних пристроїв для людей, які виконують різні види діяльності.
|Немає
|43,930,257
|Текст
|Класифікація, кластеризація
|2015
|<ref>{{Cite news|url=https://www.researchgate.net/profile/Henrik_Blunck/publication/301464144_Smart_Devices_are_Different_Assessing_and_MitigatingMobile_Sensing_Heterogeneities_for_Activity_Recognition/links/585a4c4908ae3852d256f186.pdf|title=Stisen, Allan, et al.}}</ref><ref>{{Cite news|url=http://discovery.ucl.ac.uk/1503672/1/deepwatch_wristsense.pdf|title=Bhattacharya, Sourav, and Nicholas D. Lane.}}</ref>
|A. Stisen et al.
|-
|Indoor User Movement Prediction from RSS Data
|Тимчасові дані бездротової мережі, які можна використовувати для відстеження переміщення людей в офісі.
|Немає
|13,197
|Текст
|Класифікація
|2016
|<ref>{{Cite news|title=An experimental characterization of reservoir computing in ambient assisted living applications|url=https://doi.org/10.1007/s00521-013-1364-4|work=Neural Computing and Applications|date=2014-05-01|accessdate=2022-05-27|issn=1433-3058|doi=10.1007/s00521-013-1364-4|pages=1451–1464|volume=24|issue=6|language=en|first=Davide|last=Bacciu|first2=Paolo|last2=Barsocchi|first3=Stefano|last3=Chessa|first4=Claudio|last4=Gallicchio|first5=Alessio|last5=Micheli}}</ref><ref>{{Cite news|title=Multisensor Data Fusion for Activity Recognition Based on Reservoir Computing|url=https://link.springer.com/chapter/10.1007/978-3-642-41043-7_3|publisher=Springer|work=Evaluating AAL Systems Through Competitive Benchmarking|date=2013|accessdate=2022-05-27|isbn=978-3-642-41043-7|doi=10.1007/978-3-642-41043-7_3|pages=24–35|language=en|first=Filippo|last=Palumbo|first2=Paolo|last2=Barsocchi|first3=Claudio|last3=Gallicchio|first4=Stefano|last4=Chessa|first5=Alessio|last5=Micheli|editor-first=Juan A.|editor-last=Botía}}</ref>
|D. Bacciu
|-
|PAMAP2 Physical Activity Monitoring Dataset
|18 різних видів фізичних навантажень, які виконували 9 випробовуваних у 3 ІДУ.
|Немає
|3,850,505
|Текст
|Класифікація
|2012
|<ref>Reiss, Attila, and Didier Stricker. "Introducing a new benchmarked dataset for activity monitoring."</ref>
|A. Reiss
|-
|OPPORTUNITY Activity Recognition Dataset
|Розпізнавання людської активності від датчиків, які можна носити, об’єкта та навколишнього середовища – це набір даних, розроблений для порівняння алгоритмів розпізнавання людської діяльності.
|Немає
|2551
|Текст
|Класифікація
|2012
|<ref>{{Cite news|url=https://infoscience.epfl.ch/record/138648/files/RoggenFoCaHoFaTrLuPiBaKuFeHoRiChMi09.pdf|title=Roggen, Daniel, et al.}}</ref><ref>{{Cite news|url=https://www.researchgate.net/profile/Marc_Kurz/publication/220271166_Dynamic_Quantification_of_Activity_Recognition_Capabilities_in_Opportunistic_Systems/links/09e4150f66b480c97a000000/Dynamic-Quantification-of-Activity-Recognition-Capabilities-in-Opportunistic-Systems.pdf|title=Kurz, Marc, et al.}}</ref>
|D. Roggen et al.
|-
|Real World Activity Recognition Dataset
|Розпізнавання людської діяльності за допомогою носових пристроїв. Розрізняє сім положень на корпусі пристрою та містить шість різних типів датчиків.
|Немає
|3 150 000 (за датчик)
|Текст
|Класифікація
|2016
|<ref>{{Cite news|url=https://sensor.informatik.uni-mannheim.de/publications/presentation/percom2016.pdf|title=Sztyler, Timo, and Heiner Stuckenschmidt.}}</ref>
|T. Sztyler et al.
|-
|Toronto Rehab Stroke Pose Dataset
|Тривимірні оцінки пози людини (Kinect) пацієнтів із інсультом та здорових учасників, які виконують набір завдань за допомогою робота для реабілітації після інсульту.
|Немає
|10 здорових людей і 9 людей, які пережили інсульт (3500–6000 кадрів на людину)
|CSV
|Класифікація
|2017
|<ref>{{Cite news|title=Automatic Detection of Compensation During Robotic Stroke Rehabilitation Therapy|url=https://ieeexplore.ieee.org/document/8214256/|work=IEEE Journal of Translational Engineering in Health and Medicine|date=2018|accessdate=2022-05-27|issn=2168-2372|pmc=PMC5788403|pmid=29404226|doi=10.1109/JTEHM.2017.2780836|pages=1–7|volume=6|first=Ying Xuan|last=Zhi|first2=Michelle|last2=Lukasik|first3=Michael H.|last3=Li|first4=Elham|last4=Dolatabadi|first5=Rosalie H.|last5=Wang|first6=Babak|last6=Taati}}</ref><ref>{{Cite news|title=The toronto rehab stroke pose dataset to detect compensation during stroke rehabilitation therapy|url=https://doi.org/10.1145/3154862.3154925|publisher=Association for Computing Machinery|work=Proceedings of the 11th EAI International Conference on Pervasive Computing Technologies for Healthcare|date=2017-05-23|accessdate=2022-05-27|isbn=978-1-4503-6363-1|doi=10.1145/3154862.3154925|pages=375–381|first=Elham|last=Dolatabadi|first2=Ying Xuan|last2=Zhi|first3=Bing|last3=Ye|first4=Marge|last4=Coahran|first5=Giorgia|last5=Lupinacci|first6=Alex|last6=Mihailidis|first7=Rosalie|last7=Wang|first8=Babak|last8=Taati}}</ref><ref>{{Cite web|title=Toronto Rehab Stroke Pose Dataset|url=https://www.kaggle.com/derekdb/toronto-robot-stroke-posture-dataset|website=www.kaggle.com|accessdate=2022-05-27|language=en}}</ref>
|E. Dolatabadi et al.
|-
|Corpus of Social Touch (CoST)
|7805 жестів фіксують 14 різних жестів соціального дотику, виконаних 31 досліджуваним. Жести виконувались у трьох варіантах: ніжні, нормальні та грубі, на сітці датчика тиску, обмотаної навколо руки манекена.
|Здійснювані сенсорні жести сегментовані та позначені.
|7805 зйомок жестів
|CSV
|Класифікація
|2016
|<ref>{{Cite news|title=Automatic recognition of touch gestures in the corpus of social touch|url=https://doi.org/10.1007/s12193-016-0232-9|work=Journal on Multimodal User Interfaces|date=2017-03-01|accessdate=2022-05-27|issn=1783-8738|doi=10.1007/s12193-016-0232-9|pages=81–96|volume=11|issue=1|language=en|first=Merel M.|last=Jung|first2=Mannes|last2=Poel|first3=Ronald|last3=Poppe|first4=Dirk K. J.|last4=Heylen}}</ref><ref>{{Cite news|url=https://data.4tu.nl/articles/dataset/Corpus_of_Social_Touch_CoST_/12696869|title=Jung, M.M. (Merel) (1 June 2016).}}</ref>
|M. Jung et al.
|}

=== Інші сигнали ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Wine Dataset
|Хімічний аналіз вин, вирощених в одному регіоні Італії, але отриманих з трьох різних сортів.
|Наведено 13 властивостей кожного вина
|178
|Текст
|Класифікація, регресія
|1991
|<ref>Aeberhard, S., D. Coomans, and O. De Vel. "Comparison of classifiers in high dimensional settings." ''Dept. Math. Statist., James Cook Univ., North Queensland, Australia, Tech. Rep'' 92-02 (1992).</ref><ref>{{Cite news|url=http://www.aaai.org/Papers/AAAI/2004/AAAI04-138.pdf|title=Basu, Sugato.}}</ref>
|M. Forina et al.
|-
|Combined Cycle Power Plant Data Set
|Дані від різних датчиків на електростанції, яка працює протягом 6 років.
|Жодного
|9568
|Текст
|Регресія
|2014
|<ref>{{Cite news|title=Prediction of full load electrical power output of a base load operated combined cycle power plant using machine learning methods|url=https://www.sciencedirect.com/science/article/pii/S0142061514000908|work=International Journal of Electrical Power & Energy Systems|date=2014-09-01|accessdate=2022-05-26|issn=0142-0615|doi=10.1016/j.ijepes.2014.02.027|pages=126–140|volume=60|language=en|first=Pınar|last=Tüfekci}}</ref><ref>Kaya, Heysem, Pınar Tüfekci, and Fikret S. Gürgen. "Local and global learning methods for predicting power of a combined gas & steam turbine." ''International conference on emerging trends in computer and electronics engineering (ICETCEE'2012), Dubai''. 2012.</ref>
|P. Tufekci et al.
|}

== Фізичні дані ==
Набори даних з фізичних систем.

=== Фізика високих енергій ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|HIGGS Dataset
|Моделювання Монте-Карло зіткнень прискорювачів частинок.
|Наведено 28 ознак кожного зіткнення.
|11M
|Текст
|Класифікація
|2014
|<ref>{{Cite news|title=Searching for exotic particles in high-energy physics with deep learning|url=https://www.nature.com/articles/ncomms5308|work=Nature Communications|date=2014-07-02|accessdate=2022-05-26|issn=2041-1723|doi=10.1038/ncomms5308|pages=4308|volume=5|issue=1|language=en|first=P.|last=Baldi|first2=P.|last2=Sadowski|first3=D.|last3=Whiteson}}</ref><ref name=":15">{{cite journal | last1 = Baldi | first1 = Pierre | last2 = Sadowski | first2 = Peter | last3 = Whiteson | first3 = Daniel | year = 2015 | title = Enhanced Higgs Boson to τ+ τ− Search with Deep Learning | journal = Physical Review Letters | volume = 114 | issue = 11| page = 111801 | doi=10.1103/physrevlett.114.111801| pmid = 25839260 | bibcode = 2015PhRvL.114k1801B | arxiv = 1410.3469 | s2cid = 2339142 }}</ref><ref name=":16">{{Cite news|title=The Higgs Machine Learning Challenge|url=https://ui.adsabs.harvard.edu/abs/2015JPhCS.664g2015A|date=2015-12-01|accessdate=2022-05-26|doi=10.1088/1742-6596/664/7/072015|pages=072015|volume=664|first=C.|last=Adam-Bourdarios|first2=G.|last2=Cowan|first3=C.|last3=Germain-Renaud|first4=I.|last4=Guyon|first5=B.|last5=Kégl|first6=D.|last6=Rousseau}}</ref>
|D. Whiteson
|-
|HEPMASS Dataset
|Моделювання Монте-Карло зіткнень прискорювачів частинок. Мета – відокремити сигнал від шуму.
|Наведено 28 ознак кожного зіткнення.
|10,500,000
|Текст
|Класифікація
|2016
|<ref name=":15"/><ref name=":16"/><ref>{{Cite news|title=Parameterized Machine Learning for High-Energy Physics|url=http://arxiv.org/abs/1601.07913|work=The European Physical Journal C|date=2016-05|accessdate=2022-05-26|issn=1434-6044|doi=10.1140/epjc/s10052-016-4099-4|pages=235|volume=76|issue=5|first=Pierre|last=Baldi|first2=Kyle|last2=Cranmer|first3=Taylor|last3=Faucett|first4=Peter|last4=Sadowski|first5=Daniel|last5=Whiteson}}</ref>
|D. Whiteson
|}

=== Системи ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Yacht Hydrodynamics Dataset
|Продуктивність яхти на основі розмірів.
|Для кожної яхти надано шість функцій.
|308
|Текст
|Регресія
|2013
|<ref>Ortigosa, I.; Lopez, R.; Garcia, J. "A neural networks approach to residuary resistance of sailing yachts prediction". ''Proceedings of the International Conference on Marine Engineering MARINE''. '''2007'''.</ref><ref>Gerritsma, J., R. Onnink, and A. Versluis.''Geometry, resistance and stability of the delft systematic yacht hull series''. Delft University of Technology, 1981.</ref>
|R. Lopez
|-
|Robot Execution Failures Dataset
|5 наборів даних, які зосереджені на збій роботи роботів у виконанні звичайних завдань.
|Цілочисельні функції, такі як крутний момент та інші вимірювання датчиків.
|463
|Текст
|Класифікація
|1999
|<ref>{{Cite book
|url=https://books.google.com/books?id=zi_0EdWW5fYC&printsec=frontcover#v=onepage&q&f=false
|title=Feature Extraction, Construction and Selection: A Data Mining Perspective
|last=Liu
|first=Huan
|last2=Motoda
|first2=Hiroshi
|date=1998-08-31
|publisher=Springer Science & Business Media
|language=en
|isbn=978-0-7923-8196-9
}}</ref>
|L. Seabra et al.
|-
|Pittsburgh Bridges Dataset
|Опис конструкції дається з точки зору кількох властивостей різних мостів.
|Наведено різні особливості мосту.
|108
|Текст
|Класифікація
|1990
|<ref>{{Cite news|title=Experiments in Meta-level Learning with ILP|url=https://link.springer.com/chapter/10.1007/978-3-540-48247-5_11|publisher=Springer|work=Principles of Data Mining and Knowledge Discovery|date=1999|accessdate=2022-05-26|isbn=978-3-540-48247-5|doi=10.1007/978-3-540-48247-5_11|pages=98–106|language=en|first=Ljupčo|last=Todorovski|first2=Sašo|last2=Džeroski|editor-first=Jan M.|editor-last=Żytkow}}</ref><ref>Reich, Yoram. ''Converging to Ideal Design Knowledge by Learning''. [Carnegie Mellon University], Engineering Design Research Center, 1989.</ref>
|Y. Reich et al.
|-
|Automobile Dataset
|Дані про автомобілі, їх страховий ризик та нормовані збитки.
|Характеристики автомобіля вилучені.
|205
|Текст
|Регресія
|1987
|<ref>{{Cite news|url=http://www.cs.waikato.ac.nz/~ml/publications/2000/thesis.pdf|title=Wang, Yong.}}</ref><ref>{{Cite news|title=Instance-based prediction of real-valued attributes|url=https://onlinelibrary.wiley.com/doi/10.1111/j.1467-8640.1989.tb00315.x|work=Computational Intelligence|date=1989-02|accessdate=2022-05-26|issn=0824-7935|doi=10.1111/j.1467-8640.1989.tb00315.x|pages=51–57|volume=5|issue=2|language=en|first=Dennis|last=Kibler|first2=David W.|last2=Aha|first3=Marc K.|last3=Albert}}</ref>
|J. Schimmer et al.
|-
|Auto MPG Dataset
|Дані MPG для автомобілів.
|Наведено вісім особливостей кожного автомобіля.
|398
|Текст
|Регресія
|1993
|<ref name=":19">{{Cite web|title=Download Limit Exceeded|url=http://citeseerx.ist.psu.edu/messages/downloadsexceeded.html|website=citeseerx.ist.psu.edu|accessdate=2022-05-26}}</ref>
|[[Університет Карнегі-Меллон|Carnegie Mellon University]]
|-
|Energy Efficiency Dataset
|Вимоги до опалення та охолодження наведені як функція параметрів будівлі.
|Параметри будівлі наведено.
|768
|Текст
|Класифікація, регресія
|2012
|<ref>{{Cite news|title=Accurate quantitative estimation of energy performance of residential buildings using statistical machine learning tools|url=https://www.sciencedirect.com/science/article/pii/S037877881200151X|work=Energy and Buildings|date=2012-06-01|accessdate=2022-05-26|issn=0378-7788|doi=10.1016/j.enbuild.2012.03.003|pages=560–567|volume=49|language=en|first=Athanasios|last=Tsanas|first2=Angeliki|last2=Xifara}}</ref><ref>{{Cite news|title=The gap between predicted and measured energy performance of buildings: A framework for investigation|url=https://www.sciencedirect.com/science/article/pii/S092658051400034X|work=Automation in Construction|date=2014-05-01|accessdate=2022-05-26|issn=0926-5805|doi=10.1016/j.autcon.2014.02.009|pages=40–49|volume=41|language=en|first=Pieter|last=de Wilde}}</ref>
|A. Xifara et al.
|-
|Airfoil Self-Noise Dataset
|Серія аеродинамічних та акустичних випробувань дво- та тривимірних секцій лопаті аеродинамічного профілю.
|Наведено дані про частоту, кут атаки тощо.
|1503
|Текст
|Регресія
|2014
|<ref>{{Cite news|title=Airfoil self-noise and prediction|url=https://ntrs.nasa.gov/archive/nasa/casi.ntrs.nasa.gov/19890016302.pdf|date=1989-07-01|accessdate=2022-05-26|language=en|first=Thomas F.|last=Brooks|first2=D. Stuart|last2=Pope|first3=Michael A.|last3=Marcolini}}</ref>
|R. Lopez
|-
|Challenger USA Space Shuttle O-Ring Dataset
|Спробуйте передбачити проблеми з ущільнювальними кільцями, враховуючи попередні дані Challenger.
|Наведено кілька особливостей кожного польоту, наприклад, температура запуску.
|23
|Текст
|Регресія
|1993
|<ref>{{Cite news|url=http://www2.denizyuret.com/ref/draper/assessment-and-propagation.pdf|title=Draper, David.}}</ref><ref>{{Cite news|title=Problems in Extrapolation Illustrated with Space Shuttle O-Ring Data|url=https://www.tandfonline.com/doi/abs/10.1080/01621459.1991.10475132|work=Journal of the American Statistical Association|date=1991-12-01|accessdate=2022-05-26|issn=0162-1459|doi=10.1080/01621459.1991.10475132|pages=919–921|volume=86|issue=416|first=Michael|last=Lavine}}</ref>
|D. Draper et al.
|-
|Statlog (Shuttle) Dataset
|Набори даних космічного човника NASA.
|Надано дев’ять ознак.
|58,000
|Текст
|Класифікація
|2002
|<ref>{{Cite news|url=https://www.researchgate.net/profile/Bei_Yu2/publication/228407462_Concept_Tree_Based_Ordering_for_Shaded_Similarity_Matrix/links/00b7d5175607b61d2e000000.pdf|title=Wang, Jun, Bei Yu, and Les Gasser.}}</ref>
|[[НАСА|NASA]]
|}

=== Астрономія ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задача
!Створення
!Посилання
!Джерело
|-
|Volcanoes on Venus – JARtool experiment Dataset
|Зображення Венери, отримані космічним кораблем Магеллан.
|Зображення позначаються людьми.
|not given
|Зображення
|Класифікація
|1991
|<ref>{{Cite news|url=https://science.sciencemag.org/content/252/5003/260.short|title=Pettengill, Gordon H., et al.}}</ref><ref name=":17">{{Cite news|title=Energy Spectrum of Cosmic-Ray Electrons at TeV Energies|url=https://link.aps.org/doi/10.1103/PhysRevLett.101.261104|work=Physical Review Letters|date=2008-12-30|accessdate=2022-05-26|doi=10.1103/PhysRevLett.101.261104|pages=261104|volume=101|issue=26|last=H.E.S.S. Collaboration|first2=F.|last2=Aharonian|first3=A. G.|last3=Akhperjanian|first4=U.|last4=Barres de Almeida|first5=A. R.|last5=Bazer-Bachi|first6=Y.|last6=Becherini|first7=B.|last7=Behera|first8=W.|last8=Benbow|first9=K.|last9=Bernlöhr}}</ref>
|M. Burl
|-
|MAGIC Gamma Telescope Dataset
|Монте-Карло генерував події високої енергії гамма-частинок.
|Численні функції, отримані з моделювання.
|19,020
|Текст
|Класифікаціяion
|2007
|<ref name=":17"/><ref>{{Cite news|title=Methods for multidimensional event classification: a case study using images from a Cherenkov gamma-ray telescope|url=https://www.sciencedirect.com/science/article/pii/S0168900203025051|work=Nuclear Instruments and Methods in Physics Research Section A: Accelerators, Spectrometers, Detectors and Associated Equipment|date=2004-01-11|accessdate=2022-05-26|issn=0168-9002|doi=10.1016/j.nima.2003.08.157|pages=511–528|volume=516|issue=2|language=en|first=R. K.|last=Bock|first2=A.|last2=Chilingarian|first3=M.|last3=Gaug|first4=F.|last4=Hakl|first5=T.|last5=Hengstebeck|first6=M.|last6=Jiřina|first7=J.|last7=Klaschka|first8=E.|last8=Kotrč|first9=P.|last9=Savický}}</ref>
|R. Bock
|-
|Solar Flare Dataset
|Вимірювання кількості певних типів сонячних спалахів, що відбуваються протягом 24 годин.
|Надано багато специфічних особливостей сонячних спалахів.
|1389
|Текст
|Розділення джерела звуку
|1989
|<ref>{{Cite news|title=DeEPs: A New Instance-Based Lazy Discovery and Classification System|url=https://doi.org/10.1023/B:MACH.0000011804.08528.7d|work=Machine Learning|date=2004-02-01|accessdate=2022-05-26|issn=1573-0565|doi=10.1023/B:MACH.0000011804.08528.7d|pages=99–124|volume=54|issue=2|language=en|first=Jinyan|last=Li|first2=Guozhu|last2=Dong|first3=Kotagiri|last3=Ramamohanarao|first4=Limsoon|last4=Wong}}</ref>
|G. Bradshaw
|-
|CAMELS Multifield Dataset
|2D-карти та 3D-сітки з тисяч N-тіл і найсучасніших гідродинамічних симуляцій, що охоплюють широкий діапазон значень космологічних і астрофізичних параметрів
|Кожна карта та сітка мають 6 космологічних та астрофізичних параметрів, пов’язаних з нею
|405,000 2D maps and 405,000 3D grids
|2D maps and 3D grids
|Регресія
|2021
|<ref>{{Cite news|title=The CAMELS Multifield Data Set: Learning the Universe’s Fundamental Parameters with Artificial Intelligence|url=https://doi.org/10.3847/1538-4365/ac5ab0|work=The Astrophysical Journal Supplement Series|date=2022-04-01|accessdate=2022-05-26|issn=0067-0049|doi=10.3847/1538-4365/ac5ab0|pages=61|volume=259|issue=2|language=en|first=Francisco|last=Villaescusa-Navarro|first2=Shy|last2=Genel|first3=Daniel|last3=Anglés-Alcázar|first4=Leander|last4=Thiele|first5=Romeel|last5=Dave|first6=Desika|last6=Narayanan|first7=Andrina|last7=Nicola|first8=Yin|last8=Li|first9=Pablo|last9=Villanueva-Domingo}}</ref>
|Francisco Villaescusa-Navarro et al.
|}

=== Наука про Землю ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Volcanoes of the World
|Дані про виверження вулканів для всіх відомих вулканічних подій на Землі.
|Наведено такі деталі, як регіон, субрегіон, тектонічні умови, домінуючий тип гірських порід.
|1535
|Текст
|Регресія, класифікація
|2013
|<ref>Siebert, Lee, and Tom Simkin. "Volcanoes of the world: an illustrated catalog of Holocene volcanoes and their eruptions." (2014).

</ref>
|E. Venzke et al.
|-
|Seismic-bumps Dataset
|Сейсмічна діяльність на вугільній шахті.
|Сейсмічна активність була класифікована як небезпечна чи ні.
|2584
|Текст
|Класифікація
|2013
|<ref>{{Cite news|title=Application of rule induction algorithms for analysis of data collected by seismic hazard monitoring systems in coal mines|url=https://www.infona.pl//resource/bwmeta1.element.baztech-article-BPZ5-0008-0008|work=Archives of Mining Sciences|date=2010|accessdate=2022-05-26|issn=0860-7001|pages=91–114|issue=Vol. 55, no 1|language=English|first=M.|last=Sikora|first2=Ł|last2=Wróbel}}</ref><ref>Sikora, Marek, and Beata Sikora. "Rough natural hazards monitoring." ''Rough Sets: Selected Methods and Applications in Management and Engineering''. Springer London, 2012. 163–179.</ref>
|M. Sikora et al.
|-
|CAMELS-US
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|671
|CSV, Text, Shapefile
|Регресія
|2017
|<ref>{{Cite news|title=The CAMELS data set: catchment attributes and meteorology for large-sample studies|url=https://hess.copernicus.org/articles/21/5293/2017/|work=Hydrology and Earth System Sciences|date=2017-10-20|accessdate=2022-05-26|issn=1027-5606|doi=10.5194/hess-21-5293-2017|pages=5293–5313|volume=21|issue=10|language=English|first=Nans|last=Addor|first2=Andrew J.|last2=Newman|first3=Naoki|last3=Mizukami|first4=Martyn P.|last4=Clark}}</ref><ref>{{Cite news|title=Development of a large-sample watershed-scale hydrometeorological data set for the contiguous USA: data set characteristics and assessment of regional variability in hydrologic model performance|url=https://hess.copernicus.org/articles/19/209/2015/|work=Hydrology and Earth System Sciences|date=2015-01-14|accessdate=2022-05-26|issn=1027-5606|doi=10.5194/hess-19-209-2015|pages=209–223|volume=19|issue=1|language=English|first=A. J.|last=Newman|first2=M. P.|last2=Clark|first3=K.|last3=Sampson|first4=A.|last4=Wood|first5=L. E.|last5=Hay|first6=A.|last6=Bock|first7=R. J.|last7=Viger|first8=D.|last8=Blodgett|first9=L.|last9=Brekke}}</ref>
|N. Addor et al. / A. Newman et al.
|-
|CAMELS-Chile
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|516
|CSV, Text, Shapefile
|Регресія
|2018
|<ref>{{Cite news|title=The CAMELS-CL dataset: catchment attributes and meteorology for large sample studies – Chile dataset|url=https://hess.copernicus.org/articles/22/5817/2018/|work=Hydrology and Earth System Sciences|date=2018-11-13|accessdate=2022-05-26|issn=1027-5606|doi=10.5194/hess-22-5817-2018|pages=5817–5846|volume=22|issue=11|language=English|first=Camila|last=Alvarez-Garreton|first2=Pablo A.|last2=Mendoza|first3=Juan Pablo|last3=Boisier|first4=Nans|last4=Addor|first5=Mauricio|last5=Galleguillos|first6=Mauricio|last6=Zambrano-Bigiarini|first7=Antonio|last7=Lara|first8=Cristóbal|last8=Puelma|first9=Gonzalo|last9=Cortes}}</ref>
|C. Alvarez-Garreton et al.
|-
|CAMELS-Brazil
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|897
|CSV, Text, Shapefile
|Регресія
|2020
|<ref name=":18">{{Cite news|title=CAMELS-BR: hydrometeorological time series and landscape attributes for 897 catchments in Brazil|url=https://essd.copernicus.org/articles/12/2075/2020/|work=Earth System Science Data|date=2020-09-08|accessdate=2022-05-26|issn=1866-3508|doi=10.5194/essd-12-2075-2020|pages=2075–2096|volume=12|issue=3|language=English|first=Vinícius B. P.|last=Chagas|first2=Pedro L. B.|last2=Chaffe|first3=Nans|last3=Addor|first4=Fernando M.|last4=Fan|first5=Ayan S.|last5=Fleischmann|first6=Rodrigo C. D.|last6=Paiva|first7=Vinícius A.|last7=Siqueira}}</ref>
|V. Chagas et al.
|-
|CAMELS-GB
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|671
|CSV, Text, Shapefile
|Регресія
|2020
|<ref>{{Cite news|title=CAMELS-GB: hydrometeorological time series and landscape attributes for 671 catchments in Great Britain|url=https://essd.copernicus.org/articles/12/2459/2020/|work=Earth System Science Data|date=2020-10-12|accessdate=2022-05-27|issn=1866-3508|doi=10.5194/essd-12-2459-2020|pages=2459–2483|volume=12|issue=4|language=English|first=Gemma|last=Coxon|first2=Nans|last2=Addor|first3=John P.|last3=Bloomfield|first4=Jim|last4=Freer|first5=Matt|last5=Fry|first6=Jamie|last6=Hannaford|first7=Nicholas J. K.|last7=Howden|first8=Rosanna|last8=Lane|first9=Melinda|last9=Lewis}}</ref>
|G. Coxon et al.
|-
|CAMELS-Australia
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|222
|CSV, Text, Shapefile
|Регресія
|2021
|<ref>{{Cite news|title=CAMELS-AUS: hydrometeorological time series and landscape attributes for 222 catchments in Australia|url=https://essd.copernicus.org/articles/13/3847/2021/|work=Earth System Science Data|date=2021-08-06|accessdate=2022-05-26|issn=1866-3508|doi=10.5194/essd-13-3847-2021|pages=3847–3867|volume=13|issue=8|language=English|first=Keirnan J. A.|last=Fowler|first2=Suwash Chandra|last2=Acharya|first3=Nans|last3=Addor|first4=Chihchung|last4=Chou|first5=Murray C.|last5=Peel}}</ref>
|K. Fowler et al.
|-
|LamaH-CE
|Набір гідрологічних даних водозбору з гідрометеорологічними хронометражами та різними атрибутами
|див. Посилання
|859
|CSV, Text, Shapefile
|Регресія
|2021
|<ref>{{Cite news|title=LamaH-CE: LArge-SaMple DAta for Hydrology and Environmental Sciences for Central Europe|url=https://essd.copernicus.org/articles/13/4529/2021/|work=Earth System Science Data|date=2021-09-16|accessdate=2022-05-26|issn=1866-3508|doi=10.5194/essd-13-4529-2021|pages=4529–4565|volume=13|issue=9|language=English|first=Christoph|last=Klingler|first2=Karsten|last2=Schulz|first3=Mathew|last3=Herrnegger}}</ref>
|C. Klingler et al.
|}

=== Інші фізичні ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створений
!Посилання
!Джерело
|-
|Concrete Compressive Strength Dataset
|Набір даних про властивості бетону та міцність на стиск.
|Для кожного зразка надано дев’ять ознак.
|1030
|Текст
|Регресія
|2007
|<ref>{{Cite news|title=Modeling of strength of high-performance concrete using artificial neural networks|url=https://www.sciencedirect.com/science/article/pii/S0008884698001653|work=Cement and Concrete Research|date=1998-12-01|accessdate=2022-05-26|issn=0008-8846|doi=10.1016/S0008-8846(98)00165-3|pages=1797–1808|volume=28|issue=12|language=en|first=I. -C.|last=Yeh}}</ref><ref>{{Cite news|title=Fuzzy polynomial neural networks for approximation of the compressive strength of concrete|url=https://www.sciencedirect.com/science/article/pii/S1568494607000348|work=Applied Soft Computing|date=2008-01-01|accessdate=2022-05-26|issn=1568-4946|doi=10.1016/j.asoc.2007.02.010|pages=488–498|volume=8|issue=1|language=en|first=M. H.|last=Fazel Zarandi|first2=I. B.|last2=Türksen|first3=J.|last3=Sobhani|first4=A. A.|last4=Ramezanianpour}}</ref>
|I. Yeh
|-
|Concrete Slump Test Dataset
|Осадка бетону наведена з точки зору властивостей.
|Наведені характеристики бетону, такі як летюча зола, вода тощо.
|103
|Текст
|Регресія
|2009
|<ref>Yeh, I. "Modeling slump of concrete with fly ash and superplasticizer." ''Computers and Concrete''5.6 (2008): 559–572.</ref><ref>{{Cite news|title=Comparison of artificial neural networks and general linear model approaches for the analysis of abrasive wear of concrete|url=https://www.sciencedirect.com/science/article/pii/S0950061811000869|work=Construction and Building Materials|date=2011-08-01|accessdate=2022-05-26|issn=0950-0618|doi=10.1016/j.conbuildmat.2011.03.040|pages=3486–3494|volume=25|issue=8|language=en|first=Osman|last=Gencel|first2=Fikret|last2=Kocabas|first3=Mustafa Sabri|last3=Gok|first4=Fuat|last4=Koksal}}</ref>
|I. Yeh
|-
|Musk Dataset
|Спрогнозуйте, чи буде молекула, враховуючи особливості, мускусом чи немускусом.
|Для кожної молекули наведено 168 ознак.
|6598
|Текст
|Класифікація
|1994
|<ref>{{Cite news|title=Advances in Neural Information Processing Systems 14|url=http://dx.doi.org/10.7551/mitpress/1120.001.0001|date=2002|accessdate=2022-05-27|doi=10.7551/mitpress/1120.001.0001|editor-first=Thomas G.|editor-last=Dietterich}}</ref>
|Arris Pharmaceutical Corp.
|-
|Steel Plates Faults Dataset
|Сталеві пластини 7 різних типів.
|Для кожного зразка наведено 27 ознак.
|1941
|Текст
|Класифікація
|2010
|<ref>{{Cite book
|title=https://www.researchgate.net/profile/Massimo_Buscema/publication/13731626_MetaNet_The_Theory_of_Independent_Judges/links/0deec52baf2937fc8e000000.pdf
}}</ref>
|Semeion Research Center
|}

== Біологічні дані ==
Набори даних з біологічних систем.

=== Соціальні ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Synthetic Fundus Dataset<ref>{{Cite web|title=Photorealistic retinal images|url=http://math.unipa.it/cvalenti/fundus/|website=math.unipa.it|accessdate=2022-05-27}}</ref>
|Фотореалістичні зображення сітківки та сегментації судин. Публічний домен.
|2500 зображень з роздільністю 1500*1152 пікселів, корисних для сегментації та класифікації вен і артерій на одному фоні.
|2500
|Зображення
|Класифікація, сегментація
|2020
|<ref>{{Cite news|title=A visual framework to create photorealistic retinal vessels for diagnosis purposes|url=https://www.sciencedirect.com/science/article/pii/S1532046420301180|work=Journal of Biomedical Informatics|date=2020-08-01|accessdate=2022-05-26|issn=1532-0464|doi=10.1016/j.jbi.2020.103490|pages=103490|volume=108|language=en|first=Dario|last=Lo Castro|first2=Domenico|last2=Tegolo|first3=Cesare|last3=Valenti}}</ref>
|C. Valenti et al.
|-
|EEG Database
|Дослідження для вивчення корелятів ЕЕГ генетичної схильності до алкоголізму.
|Вимірювання за допомогою 64 електродів, розміщених на шкірі голови, відбираються при частоті 256 Гц (епоха 3,9 мс) протягом 1 секунди.
|122
|Текст
|Класифікація
|1999
|<ref>{{Cite news|title=Statistical mechanics of neocortical interactions: Canonical momenta indicatorsof electroencephalography|url=https://link.aps.org/doi/10.1103/PhysRevE.55.4578|work=Physical Review E|date=1997-04-01|accessdate=2022-05-26|doi=10.1103/PhysRevE.55.4578|pages=4578–4593|volume=55|issue=4|first=Lester|last=Ingber}}</ref>
|H. Begleiter
|-
|P300 Interface Dataset
|Дані від дев’яти суб’єктів, зібрані за допомогою інтерфейсу «мозок-комп’ютер» на основі P300 для суб’єктів з обмеженими можливостями.
|Розділіть на чотири заняття для кожного предмета. Дано код MATLAB.
|1,224
|Текст
|Класифікація
|2008
|<ref>{{Cite news|title=An efficient P300-based brain–computer interface for disabled subjects|url=https://www.sciencedirect.com/science/article/pii/S0165027007001094|work=Journal of Neuroscience Methods|date=2008-01-15|accessdate=2022-05-26|issn=0165-0270|doi=10.1016/j.jneumeth.2007.03.005|pages=115–125|volume=167|issue=1|language=en|first=Ulrich|last=Hoffmann|first2=Jean-Marc|last2=Vesin|first3=Touradj|last3=Ebrahimi|first4=Karin|last4=Diserens}}</ref><ref>{{Cite news|title=The mental prosthesis: assessing the speed of a P300-based brain-computer interface|url=https://ieeexplore.ieee.org/document/847808/|work=IEEE Transactions on Rehabilitation Engineering|date=2000-06|accessdate=2022-05-26|issn=1558-0024|doi=10.1109/86.847808|pages=174–179|volume=8|issue=2|first=E.|last=Donchin|first2=K.M.|last2=Spencer|first3=R.|last3=Wijesinghe}}</ref>
|U. Hoffman et al.
|-
|Heart Disease Data Set
|Приписують пацієнтів із серцевими захворюваннями та без них.
|75 атрибутів, наданих для кожного пацієнта з деякими відсутніми значеннями.
|303
|Текст
|Класифікація
|1988
|<ref>{{Cite news|title=International application of a new probability algorithm for the diagnosis of coronary artery disease|url=https://www.ajconline.org/article/0002-9149(89)90524-9/abstract|work=American Journal of Cardiology|date=1989-08-01|accessdate=2022-05-26|issn=0002-9149|pmid=2756873|doi=10.1016/0002-9149(89)90524-9|pages=304–310|volume=64|issue=5|language=English|first=Robert|last=Detrano|first2=Andras|last2=Janosi|first3=Walter|last3=Steinbrunn|first4=Matthias|last4=Pfisterer|first5=Johann-Jakob|last5=Schmid|first6=Sarbjit|last6=Sandhu|first7=Kern H.|last7=Guppy|first8=Stella|last8=Lee|first9=Victor|last9=Froelicher}}</ref><ref>{{Cite news|title=The use of the area under the ROC curve in the evaluation of machine learning algorithms|url=https://www.sciencedirect.com/science/article/pii/S0031320396001422|work=Pattern Recognition|date=1997-07-01|accessdate=2022-05-26|issn=0031-3203|doi=10.1016/S0031-3203(96)00142-2|pages=1145–1159|volume=30|issue=7|language=en|first=Andrew P.|last=Bradley}}</ref>
|A. Janosi et al.
|-
|Breast Cancer Wisconsin (Diagnostic) Dataset
|Набір даних про особливості утворення грудей. Діагноз ставить лікар.
|Наведено 10 ознак для кожного зразка.
|569
|Текст
|Класифікація
|1995
|<ref>{{Cite news|title=Nuclear feature extraction for breast tumor diagnosis|url=https://www.spiedigitallibrary.org/conference-proceedings-of-spie/1905/0000/Nuclear-feature-extraction-for-breast-tumor-diagnosis/10.1117/12.148698.full|publisher=SPIE|work=Biomedical Image Processing and Biomedical Visualization|date=1993-07-29|accessdate=2022-05-26|doi=10.1117/12.148698|pages=861–870|volume=1905|first=W. Nick|last=Street|first2=W. H.|last2=Wolberg|first3=O. L.|last3=Mangasarian}}</ref><ref>{{Cite news|url=http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.61.1199&rep=rep1&type=pdf|title=Demir, Cigdem, and Bülent Yener.}}</ref>
|W. Wolberg et al.
|-
|National Survey on Drug Use and Health
|Широкомасштабне дослідження здоров'я та вживання наркотиків у Сполучених Штатах.
|Немає
|55,268
|Текст
|Класифікація, регресія
|2012
|<ref>Abuse, Substance. "Mental Health Services Administration, Results from the 2010 National Survey on Drug Use and Health: Summary of National Findings, NSDUH Series H-41, HHS Publication No.(SMA) 11-4658." ''Rockville, MD: Substance Abuse and Mental Health Services Administration'' 201 (2011).</ref>
|[[Міністерство охорони здоров'я і соціальних служб США|United States Department of Health and Human Services]]
|-
|Lung Cancer Dataset
|Набір даних про рак легенів без визначення атрибутів
|Для кожного випадку наведено 56 ознак
|32
|Текст
|Класифікація
|1992
|<ref>{{Cite news|title=Optimal discriminant plane for a small number of samples and design method of classifier on the plane|url=https://www.sciencedirect.com/science/article/pii/003132039190074F|work=Pattern Recognition|date=1991-01-01|accessdate=2022-05-26|issn=0031-3203|doi=10.1016/0031-3203(91)90074-F|pages=317–324|volume=24|issue=4|language=en|first=Zi-Quan|last=Hong|first2=Jing-Yu|last2=Yang}}</ref><ref name=":22">Li, Jinyan, and Limsoon Wong. "Using rules to analyse bio-medical data: a comparison between C4. 5 and PCL." ''Advances in Web-Age Information Management''. Springer Berlin Heidelberg, 2003. 254–265.</ref>
|Z. Hong et al.
|-
|Arrhythmia Dataset
|Дані для групи пацієнтів, з яких у деяких спостерігається серцева аритмія.
|276 функцій для кожного екземпляра.
|452
|Текст
|Класифікація
|1998
|<ref>{{Cite news|url=http://repository.bilkent.edu.tr/bitstream/handle/11693/27699/bilkent-research-paper.pdf?sequence=1|title=Güvenir, H. Altay, et al.}}</ref><ref>{{Cite news|url=http://users.ics.aalto.fi/ahonkela/papers/Lagus05akrr.pdf|title=Lagus, Krista, et al.}}</ref>
|H. Altay et al.
|-
|Diabetes 130-US hospitals for years 1999–2008 Dataset
|Дані про реадмісію за 9 років у 130 американських лікарнях для пацієнтів з цукровим діабетом.
|Наведено багато особливостей кожної реадмісії.
|100,000
|Текст
|Класифікація, кластеризація
|2014
|<ref>{{Cite news|url=http://downloads.hindawi.com/journals/bmri/2014/781670.pdf|title=Strack, Beata, et al.}}</ref><ref>{{Cite news|title=Hospital Readmission of Patients with Diabetes|url=https://doi.org/10.1007/s11892-015-0584-7|work=Current Diabetes Reports|date=2015-02-25|accessdate=2022-05-27|issn=1539-0829|doi=10.1007/s11892-015-0584-7|pages=17|volume=15|issue=4|language=en|first=Daniel J.|last=Rubin}}</ref>
|J. Clore et al.
|-
|Diabetic Retinopathy Debrecen Dataset
|Характеристики, отримані із зображень очей з діабетичною ретинопатією та без неї.
|Вилучено ознаки та діагностовано умови.
|1151
|Текст
|Класифікація
|2014
|<ref>{{Cite web|title=Messidor|url=https://www.adcis.net/en/third-party/messidor/|website=ADCIS|accessdate=2022-05-27|language=en|first=Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien ELIE, Mélanie FOLTETE, Arthur DONJON, Hugo|last=MAFFRE}}</ref><ref>{{Cite news|title=Improved Microaneurysm Detection using Deep Neural Networks|url=http://arxiv.org/abs/1505.04424|work=arXiv:1505.04424 [cs]|date=2016-07-17|accessdate=2022-05-27|first=Mrinal|last=Haloi}}</ref>
|B. Antal et al.
|-
|Diabetic Retinopathy Messidor Dataset
|Методи оцінки методів сегментації та індексації в області офтальмології сітківки (MESSIDOR)
|Характеризує ступінь ретинопатії та ризик розвитку макулярного набряку
|1200
|Зображення, текст
|Класифікація, сегментація
|2008
|<ref>{{Cite news|url=http://www.adcis.net/en/Download-Third-Party/Messidor.htmldownload.php|title=ELIE, Guillaume PATRY, Gervais GAUTHIER, Bruno LAY, Julien ROGER, Damien. "ADCIS Download Third Party: Messidor Database}}</ref><ref>{{Cite news|title=FEEDBACK ON A PUBLICLY DISTRIBUTED IMAGE DATABASE: THE MESSIDOR DATABASE|url=https://www.ias-iss.org/ojs/IAS/article/view/1155|work=Image Analysis & Stereology|date=2014-08-26|accessdate=2022-05-26|issn=1854-5165|doi=10.5566/ias.1155|pages=231–234|volume=33|issue=3|language=en|first=Etienne|last=Decencière|first2=Xiwei|last2=Zhang|first3=Guy|last3=Cazuguel|first4=Bruno|last4=Lay|first5=Béatrice|last5=Cochener|first6=Caroline|last6=Trone|first7=Philippe|last7=Gain|first8=Richard|last8=Ordonez|first9=Pascale|last9=Massin}}</ref>
|Messidor Project
|-
|Liver Disorders Dataset
|Дані для людей із захворюваннями печінки.
|Для кожного пацієнта наведено сім біологічних ознак.
|345
|Текст
|Класифікація
|1990
|<ref>{{Cite news|title=Unsupervised and supervised data classification via nonsmooth and global optimization|url=https://doi.org/10.1007/BF02578945|work=Top|date=2003-06-01|accessdate=2022-05-26|issn=1863-8279|doi=10.1007/BF02578945|pages=1–75|volume=11|issue=1|language=en|first=A. M.|last=Bagirov|first2=A. M.|last2=Rubinov|first3=N. V.|last3=Soukhoroukova|first4=J.|last4=Yearwood}}</ref><ref>{{Cite news|url=https://jinbo-bi.uconn.edu/wp-content/uploads/sites/2638/2018/12/icml04_kernel.pdf|title=Fung, Glenn, et al.}}</ref>
|Bupa Medical Research Ltd.
|-
|Thyroid Disease Dataset
|10 баз даних пацієнтів із захворюваннями щитовидної залози.
|Немає
|7200
|Текст
|Класифікація
|1987
|<ref>Quinlan, John Ross, et al. "Inductive knowledge acquisition: a case study." ''Proceedings of the Second Australian Conference on Applications of expert systems''. Addison-Wesley Longman Publishing Co., Inc., 1987.</ref><ref name=":20">{{Cite news|title=NeC4.5: neural ensemble based C4.5|url=https://ieeexplore.ieee.org/document/1294896/|work=IEEE Transactions on Knowledge and Data Engineering|date=2004-06|accessdate=2022-05-26|issn=1558-2191|doi=10.1109/TKDE.2004.11|pages=770–773|volume=16|issue=6|first=Zhi-Hua|last=Zhou|first2=Yuan|last2=Jiang}}</ref>
|R. Quinlan
|-
|Mesothelioma Dataset
|Дані пацієнтів з мезотеліомою.
|Наведено велику кількість особливостей, включаючи вплив азбесту.
|324
|TextТекст
|Класифікація2016
|2016
|<ref>{{Cite news|title=An approach based on probabilistic neural network for diagnosis of Mesothelioma’s disease|url=https://www.sciencedirect.com/science/article/pii/S0045790611001261|work=Computers & Electrical Engineering|date=2012-01-01|accessdate=2022-05-27|issn=0045-7906|doi=10.1016/j.compeleceng.2011.09.001|pages=75–81|volume=38|issue=1|language=en|first=Orhan|last=Er|first2=Abdullah Cetin|last2=Tanrikulu|first3=Abdurrahman|last3=Abakay|first4=Feyzullah|last4=Temurtas}}</ref><ref>{{Cite news|url=https://dergipark.org.tr/download/article-file/54521|title=Er, Orhan, A. Çetin Tanrikulu, and Abdurrahman Abakay.}}</ref>
|A. Tanrikulu et al.
|-
|Parkinson's Vision-Based Pose Estimation Dataset
|2D оцінки пози людини пацієнтів з хворобою Паркінсона, які виконують різноманітні завдання.
|Тремтіння камери вилучено з траєкторій.
|134
|Текст
|Класифікація, регресія
|2017
|<ref>{{Cite news|title=Vision-based assessment of parkinsonism and levodopa-induced dyskinesia with pose estimation|url=https://doi.org/10.1186/s12984-018-0446-z|work=Journal of NeuroEngineering and Rehabilitation|date=2018-11-06|accessdate=2022-05-27|issn=1743-0003|pmc=PMC6219082|pmid=30400914|doi=10.1186/s12984-018-0446-z|pages=97|volume=15|issue=1|first=Michael H.|last=Li|first2=Tiago A.|last2=Mestre|first3=Susan H.|last3=Fox|first4=Babak|last4=Taati}}</ref><ref>{{Cite news|title=Automated assessment of levodopa-induced dyskinesia: Evaluating the responsiveness of video-based features|url=https://doi.org/10.1016/j.parkreldis.2018.04.036|work=Parkinsonism &amp; Related Disorders|date=2018-08|accessdate=2022-05-27|issn=1353-8020|doi=10.1016/j.parkreldis.2018.04.036|pages=42–45|volume=53|first=Michael H.|last=Li|first2=Tiago A.|last2=Mestre|first3=Susan H.|last3=Fox|first4=Babak|last4=Taati}}</ref><ref>{{Cite web|title=Parkinson's Vision-Based Pose Estimation Dataset|url=https://www.kaggle.com/limi44/parkinsons-visionbased-pose-estimation-dataset|website=www.kaggle.com|accessdate=2022-05-27|language=en}}</ref>
|M. Li et al.
|-
|KEGG Metabolic Reaction Network (Undirected) Dataset
|Мережа метаболічних шляхів. Дано мережу реакцій і мережу відношень.
|Наведено детальні характеристики для кожного вузла мережі та шляху.
|65,554
|Текст
|Класифікація, кластеризація, регресія
|2011
|<ref>{{Cite news|title=Cytoscape: A Software Environment for Integrated Models of Biomolecular Interaction Networks|url=https://genome.cshlp.org/content/13/11/2498|work=Genome Research|date=2003-11-01|accessdate=2022-05-27|issn=1088-9051|pmc=PMC403769|pmid=14597658|doi=10.1101/gr.1239303|pages=2498–2504|volume=13|issue=11|language=en|first=Paul|last=Shannon|first2=Andrew|last2=Markiel|first3=Owen|last3=Ozier|first4=Nitin S.|last4=Baliga|first5=Jonathan T.|last5=Wang|first6=Daniel|last6=Ramage|first7=Nada|last7=Amin|first8=Benno|last8=Schwikowski|first9=Trey|last9=Ideker}}</ref>
|M. Naeem et al.
|-
|Modified Human Sperm Morphology Analysis Dataset (MHSMA)
|Зображення сперми людини 235 пацієнтів з чоловічим фактором безпліддя, позначені для нормальної або аномальної сперматозоїди акросоми, головки, вакуолі та хвоста.
|Обрізаний навколо однієї головки сперматозоїда. Нормалізоване збільшення. Створено розділи для навчання, перевірки та тестування.
|1,540
|.npy files
|Класифікація
|2019
|<ref>{{Cite news|title=A novel deep learning method for automatic assessment of human sperm images|url=https://www.sciencedirect.com/science/article/pii/S0010482519301386|work=Computers in Biology and Medicine|date=2019-06-01|accessdate=2022-05-27|issn=0010-4825|doi=10.1016/j.compbiomed.2019.04.030|pages=182–194|volume=109|language=en|first=Soroush|last=Javadi|first2=Seyed Abolghasem|last2=Mirroshandel}}</ref><ref>{{Citation|title=MHSMA: The Modified Human Sperm Morphology Analysis Dataset|url=https://github.com/soroushj/mhsma-dataset|date=2022-01-11|accessdate=2022-05-27|first=Soroush|last=Javadi}}</ref>
|S. Javadi and S.A. Mirroshandel
|}

=== Тварини ===
{| class="wikitable sortable"
!Назва
!Опис
!Обробка
!Розмір
!Формат
!Задачі
!Створення
!Посилання
!Джерело
|-
|Abalone Dataset
|Фізичні вимірювання вушка. Також вказано погодні умови та місце розт