Матриця невідповідностей
Джерела: Fawcett (2006),[6] Powers (2011),[7] Ting (2011),[8] CAWCR,[9] D. Chicco & G. Jurman (2020) (2020),[10] Tharwat (2018),[11] Смоляр та ін. (2013),[1] Коваль та ін. (2016),[2] Швець (2015),[3] Гущин та Сич (2018),[4] Мірошниченко та Івлієва (2019).[5] |
В галузі машинного навчання, й зокрема в задачі статистичної класифікації, ма́триця невідпові́дностей[12] (англ. confusion matrix), також відома як матриця помилок (англ. error matrix),[13] — це таблиця особливого компонування, що дає можливість унаочнювати продуктивність алгоритму, зазвичай керованого навчання (у некерованім навчанні її зазвичай називають ма́трицею допасо́ваності, англ. matching matrix). Кожен з рядків цієї матриці представляє зразки прогнозованого класу, тоді як кожен зі стовпців представляє зразки справжнього класу (або навпаки).[14] Її назва походить від того факту, що вона дає можливість просто бачити, чи допускає система невідповідності між цими двома класами (наприклад, часто помилково маркуючи один як інший).
Вона є особливим видом таблиці спряженості з двома вимірами («справжній» та «прогнозований») та ідентичними наборами «класів» в обох вимірах (кожна з комбінацій виміру та класу є змінною цієї таблиці спряженості).
Приклад
ред.Нехай задано вибірку з 13 зображень — 8 котів та 5 псів, де коти належать до класу 1, а пси належать до класу 0,
- справжній = [1,1,1,1,1,1,1,1,0,0,0,0,0],
припустімо, що ми перевіряємо класифікатор, який розрізняє котів та псів. Для цього ці 13 зображень подамо у класифікатор, і, нехай, класифікатор зробив 8 точних прогнозів, та 5 помилок: для 3 котів було помилково зроблено прогноз, що це пси (перші три прогнози), й для 2 псів було зроблено помилковий прогноз, що це коти (крайні 2 прогнози).
- прогнозований = [0,0,0,1,1,1,1,1,0,0,0,1,1]
Маючи ці два мічені набори (справжній та прогнозований), ми можемо створити матрицю невідповідностей, що узагальнюватиме ці результати перевірки класифікатора:
|
В цій матриці невідповідностей система порахувала, що із 8 зображень котів 3 були псами, а для 2 з 5 зображень псів було зроблено прогноз, що це коти. Всі правильні прогнози розміщено на діагоналі таблиці (виділеній жирним), тож цю таблицю легко візуально перевіряти на помилки прогнозування, оскільки їх представлено значеннями поза цією діагоналлю.
Абстрактно, матриця невідповідностей є такою:
|
де П = Позитивний, Н = Негативний, ІП = Істинно Позитивний, ХП = Хибно Позитивний, ІН = Істинно Негативний, ХН = Хибно Негативний.
В англомовних джерелах можно побачити наступні позначення:
Прогнозований клас | |||
Загальна кількість = P + N |
Predicted Positive (PP) | Predicted Negative (PN) | |
Positive (P) | True positive (TP) |
False negative (FN) | |
Negative (N) | False positive (FP) |
True negative (TN) | |
Де:
- P - це кількість реальних позитивних випадків у даних;
- N - кількість реальних негативних випадків у даних;
Тобто, можно трактувати об'єкти P та N - як об'єкти двох різних класів.
Таблиця невідповідностей
ред.В прогнозній аналітиці[en], табли́ця невідпові́дностей (англ. table of confusion, іноді також звана ма́трицею невідпові́дностей), — це таблиця з двома рядками та двома стовпцями, що повідомляє число хибно позитивних (англ. false positives), хибно негативних (англ. false negatives), істинно позитивних (англ. true positives) та істинно негативних (англ. true negatives) результатів. Це уможливлює аналіз, докладніший за просту пропорцію правильних класифікацій (точність). Точність видаватиме оманливі результати, якщо набір даних є незбалансованим, тобто коли число спостережень в різних класах сильно різниться. Наприклад, якби в цих даних було 95 котів і лише 5 псів, певний класифікатор міг би класифікувати всі спостереження як котів. Загальна точність становила би 95 %, але, докладніше, класифікатор мав би 100 %-вий рівень розпізнавання (чутливість) для класу котів, але 0 %-вий рівень розпізнавання для класу псів. Міра F1 є ще ненадійнішою в таких випадках, і тут видавала би понад 97,4 %, тоді як поінформованість[en] усуває це упередження, й видає 0 як імовірність поінформованого рішення для будь-якого виду гадання навмання (в даному випадку завжди гадання, що це є коти).
Згідно Давіде Чікко та Джузеппе Журмана, найінформативнішою метрикою для оцінювання матриці невідповідностей є коефіцієнт кореляції Меттьюза[en] (ККМ, англ. Matthews correlation coefficient, MCC).[15]
Виходячи з наведеної вище матриці невідповідностей, відповідною їй таблицею невідповідностей для котів буде
Справжній клас | ||||
---|---|---|---|---|
Кіт | Не-кіт | |||
Прогнозований
клас |
Кіт | 5 істинно позитивних | 2 хибно позитивних | |
Не-кіт | 3 хибно негативних | 3 істинно негативних |
Остаточна таблиця невідповідностей міститиме усереднені значення для всіх класів узятих разом.
Визначмо експеримент з П позитивними випадками та Н негативними випадками для якогось стану. Наведені вище чотири результати може бути сформульовано в матриці невідповідностей 2×2 наступним чином:
Справжній стан | ||||||
загальна сукупність | позитивний стан | негативний стан | поширеність = Σ позитивних станів/Σ загальної сукупності | точність = Σ істинно позитивних + Σ істинно негативних/Σ загальної сукупності | ||
позитивний прогнозований стан |
істинно позитивний | хибно позитивний, помилка I роду |
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивних/Σ позитивних прогнозованих станів | рівень хибного виявляння[en] (РХВ) = Σ хибно позитивних/Σ позитивних прогнозованих станів | ||
негативний прогнозований стан |
хибно негативний, помилка II роду |
істинно негативний | рівень хибного пропускання (РХП) = Σ хибно негативних/Σ негативних прогнозованих станів | прогностична значущість негативного результату (ПЗ-) = Σ істинно негативних/Σ негативних прогнозованих станів | ||
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивних/Σ позитивних станів | хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивних/Σ негативних станів | відношення правдоподібності позитивного результату (ВП+) = ІПР/ХПР | діагностичне відношення шансів (ДВШ) = ВП+/ВП− | міра F1 = 2 · влучність · повнота/влучність + повнота | ||
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативних/Σ позитивних станів | специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативних/Σ негативних станів | відношення правдоподібності негативного результату (ВП-) = ХНР/ІНР |
Примітки
ред.- ↑ а б в г д е ж и Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).
- ↑ а б в г д е ж Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України». 3 (23). Архів оригіналу за 27 жовтня 2020. Процитовано 10 жовтня 2020.
- ↑ а б в г д е Швець У. С. Основні поняття доказової медицини. — 2015. Архівовано з джерела 20 вересня 2020. Процитовано 10 жовтня 2020.
- ↑ а б в г Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 10 жовтня 2020.
- ↑ а б Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.
- ↑ Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)
- ↑ Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)
- ↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)
- ↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)
- ↑ Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
{{cite journal}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.) - ↑ Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)
- ↑ Сперкач, М. О.; Юзьвак, Д. Ю. (2019). Розв'язання задачі класифікації текстів методами обробки природньої мови та машинного навчання (PDF). Науковий огляд. 4 (57). Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 27 вересня 2020.
- ↑ Stehman, Stephen V. (1997). Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment. 62 (1): 77—89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7. (англ.)
- ↑ Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. S2CID 55767944. (англ.)
- ↑ Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.
{{cite journal}}
: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)