Матриця невідповідностей

Термінологія та виведення
з матриці невідповідностей
позитивний стан (П) число справжніх позитивних випадків у даних негативний стан (Н) число справжніх негативних випадків у даних істинно позитивний (ІП)^[1]^[2] рівнозначно із влучанням істинно негативний (ІН)^[1]^[2] рівнозначно із правильним відхиленням хибно позитивний (ХП)^[1]^[2] рівнозначно з хибною тривогою^[en], помилка I роду хибно негативний (ХН)^[1]^[2] рівнозначно з пропусканням, помилка II роду чутливість,^[2] діагностична чутливість (ДЧ),^[1]^[3] повнота,^[4] коефіцієнт влучання^[en], або істиннопозитивний рівень (ІПР) ІПР = ІПП = ІПІП + ХН = 1 - ІНР діагностична специфічність (ДС),^[1]^[3] вибірність або істиннонегативний рівень (ІНР) ІНР = ІНН = ІНІН + ХП = 1 - ХПР влучність^[4] або прогностична значущість позитивного результату (ПЗ+)^[3] ПЗ+ = ІПІП + ХП = 1 - РХВ прогностична значущість негативного результату (ПЗ-)^[3] ПЗ- = ІНІН + ХН = 1 - РХП коефіцієнт невлучання, або хибнонегативний рівень (ХНР) ХНР = ХНП = ХНХН + ІП = 1 - ІПР побічний продукт, або хибнопозитивний рівень (ХПР) ХПР = ХПН = ХПХП + ІН = 1 - ІНР рівень хибного виявляння^[en] (РХВ) РХВ = ХПХП + ІП = 1 - ПЗ+ рівень хибного пропускання (РХП) РХП = ХНХН + ІН = 1 - ПЗ- поріг поширеності (ПП) ПП = √ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1) міра загрози (МЗ) або критичний індекс успіху (КІУ) МЗ = ІПІП + ХН + ХП точність,^[2] діагностична ефективність (ДЕ)^[1]^[3] ДЕ = ІП + ІНП + Н = ІП + ІНІП + ІН + ХП + ХН збалансована точність^[5] (ЗТ) ЗТ = ІПР + ХПР2 міра F₁^[4] гармонійне середнє влучності та чутливості F₁ = 2 · ПЗ+ · ІПРПЗ+ + ІПР = 2 ІП2 ІП + ХП + ХН коефіцієнт кореляції Меттьюза^[en] (ККМ) ККМ = ІП · ІН - ХП · ХН√(ІП + ХП)(ІП + ХН)(ІН + ХП)(ІН + ХН) індекс Фаулкса — Меттьюза^[en] (ФМ) ФМ = √ІПІП + ХП · ІПІП + ХН = √ПЗ+ · ІПР поінформованість^[en], або букмекерська поінформованість (БП) БП = ІПР + ІНР - 1 маркованість^[en] (МК) або Δp МК = ПЗ+ + ПЗ- - 1 Джерела: Fawcett (2006),^[6] Powers (2011),^[7] Ting (2011),^[8] CAWCR,^[9] D. Chicco & G. Jurman (2020) (2020),^[10] Tharwat (2018),^[11] Смоляр та ін. (2013),^[1] Коваль та ін. (2016),^[2] Швець (2015),^[3] Гущин та Сич (2018),^[4] Мірошниченко та Івлієва (2019).^[5]

В галузі машинного навчання, й зокрема в задачі статистичної класифікації, ма́триця невідпові́дностей^[12] (англ. confusion matrix), також відома як матриця помилок (англ. error matrix),^[13] — це таблиця особливого компонування, що дає можливість унаочнювати продуктивність алгоритму, зазвичай керованого навчання (у некерованім навчанні її зазвичай називають ма́трицею допасо́ваності, англ. matching matrix). Кожен з рядків цієї матриці представляє зразки прогнозованого класу, тоді як кожен зі стовпців представляє зразки справжнього класу (або навпаки).^[14] Її назва походить від того факту, що вона дає можливість просто бачити, чи допускає система невідповідності між цими двома класами (наприклад, часто помилково маркуючи один як інший).

Вона є особливим видом таблиці спряженості з двома вимірами («справжній» та «прогнозований») та ідентичними наборами «класів» в обох вимірах (кожна з комбінацій виміру та класу є змінною цієї таблиці спряженості).

Приклад ред.

Нехай задано вибірку з 13 зображень — 8 котів та 5 псів, де коти належать до класу 1, а пси належать до класу 0,

справжній = [1,1,1,1,1,1,1,1,0,0,0,0,0],

припустімо, що ми перевіряємо класифікатор, який розрізняє котів та псів. Для цього ці 13 зображень подамо у класифікатор, і, нехай, класифікатор зробив 8 точних прогнозів, та 5 помилок: для 3 котів було помилково зроблено прогноз, що це пси (перші три прогнози), й для 2 псів було зроблено помилковий прогноз, що це коти (крайні 2 прогнози).

прогнозований = [0,0,0,1,1,1,1,1,0,0,0,1,1]

Маючи ці два мічені набори (справжній та прогнозований), ми можемо створити матрицю невідповідностей, що узагальнюватиме ці результати перевірки класифікатора:

		Справжній клас
		Кіт	Пес
Прогнозований клас	Кіт	5	2
Прогнозований клас	Пес	3	3

В цій матриці невідповідностей система порахувала, що із 8 зображень котів 3 були псами, а для 2 з 5 зображень псів було зроблено прогноз, що це коти. Всі правильні прогнози розміщено на діагоналі таблиці (виділеній жирним), тож цю таблицю легко візуально перевіряти на помилки прогнозування, оскільки їх представлено значеннями поза цією діагоналлю.

Абстрактно, матриця невідповідностей є такою:

		Справжній клас
		П	Н
Прогнозований клас	П	ІП	ХП
Прогнозований клас	Н	ХН	ІН

де П = Позитивний, Н = Негативний, ІП = Істинно Позитивний, ХП = Хибно Позитивний, ІН = Істинно Негативний, ХН = Хибно Негативний.

В англомовних джерелах можно побачити наступні позначення:

		Прогнозований клас
	Загальна кількість = P + N	Predicted Positive (PP)	Predicted Negative (PN)
Справжній клас	Positive (P)	True positive (TP)	False negative (FN)
Справжній клас	Negative (N)	False positive (FP)	True negative (TN)

Де:

P - це кількість реальних позитивних випадків у даних;

N - кількість реальних негативних випадків у даних;

Тобто, можно трактувати об'єкти P та N - як об'єкти двох різних класів.

Таблиця невідповідностей ред.

В прогнозній аналітиці^[en], табли́ця невідпові́дностей (англ. table of confusion, іноді також звана ма́трицею невідпові́дностей), — це таблиця з двома рядками та двома стовпцями, що повідомляє число хибно позитивних (англ. false positives), хибно негативних (англ. false negatives), істинно позитивних (англ. true positives) та істинно негативних (англ. true negatives) результатів. Це уможливлює аналіз, докладніший за просту пропорцію правильних класифікацій (точність). Точність видаватиме оманливі результати, якщо набір даних є незбалансованим, тобто коли число спостережень в різних класах сильно різниться. Наприклад, якби в цих даних було 95 котів і лише 5 псів, певний класифікатор міг би класифікувати всі спостереження як котів. Загальна точність становила би 95 %, але, докладніше, класифікатор мав би 100 %-вий рівень розпізнавання (чутливість) для класу котів, але 0 %-вий рівень розпізнавання для класу псів. Міра F₁ є ще ненадійнішою в таких випадках, і тут видавала би понад 97,4 %, тоді як поінформованість^[en] усуває це упередження, й видає 0 як імовірність поінформованого рішення для будь-якого виду гадання навмання (в даному випадку завжди гадання, що це є коти).

Згідно Давіде Чікко та Джузеппе Журмана, найінформативнішою метрикою для оцінювання матриці невідповідностей є коефіцієнт кореляції Меттьюза^[en] (ККМ, англ. Matthews correlation coefficient, MCC).^[15]

Виходячи з наведеної вище матриці невідповідностей, відповідною їй таблицею невідповідностей для котів буде

		Справжній клас
		Кіт	Не-кіт
Прогнозований клас	Кіт	5 істинно позитивних	2 хибно позитивних
	Не-кіт	3 хибно негативних	3 істинно негативних

Остаточна таблиця невідповідностей міститиме усереднені значення для всіх класів узятих разом.

Визначмо експеримент з П позитивними випадками та Н негативними випадками для якогось стану. Наведені вище чотири результати може бути сформульовано в матриці невідповідностей 2×2 наступним чином:

		Справжній стан
	загальна сукупність	позитивний стан	негативний стан	поширеність = Σ позитивних станівΣ загальної сукупності	точність = Σ істинно позитивних + Σ істинно негативнихΣ загальної сукупності
Прогнозований стан	позитивний прогнозований стан	істинно позитивний	хибно позитивний, помилка I роду	прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивнихΣ позитивних прогнозованих станів	рівень хибного виявляння^[en] (РХВ) = Σ хибно позитивнихΣ позитивних прогнозованих станів
	негативний прогнозований стан	хибно негативний, помилка II роду	істинно негативний	рівень хибного пропускання (РХП) = Σ хибно негативнихΣ негативних прогнозованих станів	прогностична значущість негативного результату (ПЗ-) = Σ істинно негативнихΣ негативних прогнозованих станів
		істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивнихΣ позитивних станів	хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивнихΣ негативних станів	відношення правдоподібності позитивного результату (ВП+) = ІПРХПР	діагностичне відношення шансів (ДВШ) = ВП+ВП−	міра F₁ = 2 · влучність · повнотавлучність + повнота
		хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативнихΣ позитивних станів	специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативнихΣ негативних станів	відношення правдоподібності негативного результату (ВП-) = ХНРІНР

Примітки ред.

↑ ^а ^б ^в ^г ^д ^е ^ж ^и Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).
↑ ^а ^б ^в ^г ^д ^е ^ж Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України». 3 (23). Архів оригіналу за 27 жовтня 2020. Процитовано 10 жовтня 2020.
↑ ^а ^б ^в ^г ^д ^е Швець У. С. Основні поняття доказової медицини. — 2015. Архівовано з джерела 20 вересня 2020. Процитовано 10 жовтня 2020.
↑ ^а ^б ^в ^г Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 10 жовтня 2020.
↑ ^а ^б Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.
↑ Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)
↑ Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)
↑ Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)
↑ Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)
↑ Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
↑ Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)
↑ Сперкач, М. О.; Юзьвак, Д. Ю. (2019). Розв'язання задачі класифікації текстів методами обробки природньої мови та машинного навчання (PDF). Науковий огляд. 4 (57). Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 27 вересня 2020.
↑ Stehman, Stephen V. (1997). Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment. 62 (1): 77—89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7. (англ.)
↑ Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. S2CID 55767944. (англ.)
↑ Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[Смоляр2013-1] а ^б ^в ^г ^д ^е ^ж ^и Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія. Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України. 3 (44).

[Коваль2016-2] а ^б ^в ^г ^д ^е ^ж Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія. Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України». 3 (23). Архів оригіналу за 27 жовтня 2020. Процитовано 10 жовтня 2020.

[Швець2015-3] а ^б ^в ^г ^д ^е Швець У. С. Основні поняття доказової медицини. — 2015. Архівовано з джерела 20 вересня 2020. Процитовано 10 жовтня 2020.

[ГущинСич2018-4] а ^б ^в ^г Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації (PDF). Молодий вчений. Харківський національний університет імені В.Н. Каразіна. 10 (62): 264—266. Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 10 жовтня 2020.

[МірошниченкоІвлієва2019-5] а ^б Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.

[6] Fawcett, Tom (2006). An Introduction to ROC Analysis (PDF). Pattern Recognition Letters. 27 (8): 861—874. doi:10.1016/j.patrec.2005.10.010. (англ.)

[7] Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. (англ.)

[8] Ting, Kai Ming (2011). Sammut, Claude; Webb, Geoffrey I (ред.). Encyclopedia of machine learning. Springer. doi:10.1007/978-0-387-30164-8. ISBN 978-0-387-30164-8. (англ.)

[9] Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)

[10] Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[11] Tharwat A (August 2018). Classification assessment methods. Applied Computing and Informatics. doi:10.1016/j.aci.2018.08.003. (англ.)

[12] Сперкач, М. О.; Юзьвак, Д. Ю. (2019). Розв'язання задачі класифікації текстів методами обробки природньої мови та машинного навчання (PDF). Науковий огляд. 4 (57). Архів оригіналу (PDF) за 27 вересня 2020. Процитовано 27 вересня 2020.

[13] Stehman, Stephen V. (1997). Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment. 62 (1): 77—89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7. (англ.)

[Powers2011-14] Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies. 2 (1): 37—63. S2CID 55767944. (англ.)

[15] Chicco D, Jurman G (January 2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics. 21 (1): 6-1–6-13. doi:10.1186/s12864-019-6413-7. PMC 6941312. PMID 31898477.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]