Хибно позитивні та хибно негативні

Хи́бно позити́вне (англ. false positive) — це помилка в бінарній класифікації, в якій результат тесту неправильно вказує на наявність якогось стану, такого як захворювання, в той час як цього захворювання немає, тоді як хи́бно негати́вне (англ. false negative) — це протилежна помилка, коли результатові тесту неправильно не вдається вказати на наявність якогось стану, коли він присутній. Це — два типи помилок у бінарному тесті, на противагу до двох типів правильного результату, і́стинно позити́вного (англ. true positive) та і́стинно негати́вного (англ. true negative). Вони є також відомими в медицині як хи́бно позити́вний (та хи́бно негати́вний) діа́гноз, та в статистичній класифікації як істиннопозити́вна (та істиннонегати́вна) по́милка.^[1]

У перевірці статистичних гіпотез аналогічні поняття є відомими як помилки першого та другого роду, де позитивний результат відповідає відхиленню нульової гіпотези, а негативний результат відповідає не відхиленню нульової гіпотези. Ці терміни часто використовують як взаємозамінні, але існують відмінності в деталях та інтерпретації, через відмінності між медичним тестуванням та перевіркою статистичних гіпотез.

Хибнопозитивна помилка

Хибнопозити́вна по́милка (англ. false positive error), або хи́бно позити́вне (англ. false positive) — це результат, який вказує на наявність заданого стану, тоді як його немає. Наприклад, тест на вагітність, який вказує, що жінка є вагітною, тоді як вона такою не є, або засудження невинної особи.

Хибнопозитивна помилка є помилкою першого роду, в якій тест перевіряє єдину умову, й неправильно видає ствердне (позитивне) рішення. Проте важливо відрізняти рівень помилок першого роду (англ. type 1 error rate), та ймовірність хибності позитивного результату. Остання є відомою як хибнопозитивний ризик (англ. false positive risk, див. неоднозначність у визначенні хибнопозитивного рівня нижче).^[2]

Хибнонегативна помилка

Хибнонегати́вна по́милка (англ. false negative error), або хи́бно негати́вне (англ. false negative) — це результат тесту, який неправильно вказує, що умова не виконується. Наприклад, коли тест на вагітність вказує, що жінка не є вагітною, але вона є, або коли особу, винну в злочині, виправдано, то ці результати є хибно негативними. Умови «жінка є вагітною» та «особа є винною» виконуються, але тестові (тестові на вагітність, або судовому розглядові) не вдається усвідомити цю умову, й вони помилково вирішують, що особа є не вагітною, або не винною.

Хибнонегативна помилка є помилкою другого роду, яка трапляється в тесті, в якому перевіряють наявність єдиної умови, й результат тесту є помилковим, що ця умова відсутня.^[3]

Пов'язані терміни

Хибнопозитивний та хибнонегативний рівні

Докладніше: Чутливість та специфічність та Хибнопозитивний рівень

Хибнопозитивний рівень (англ. false positive rate) — це частка з усіх негативних, які все ж видають позитивні результати тесту, тобто, умовна ймовірність позитивного результату тесту за умови відсутності події.

Хибнопозитивний рівень дорівнює рівневі значущості. Специфічність тесту дорівнює 1 мінус хибнопозитивний рівень.

У перевірці статистичних гіпотез цю частку позначують грецькою літерою α, а 1 − α визначають як специфічність тесту. Збільшення специфічності тесту знижує ймовірність помилок першого роду, але може підвищити ймовірність помилок другого роду (хибно негативних, які відхиляють альтернативну гіпотезу, коли вона є істинною).^[a]

Відповідно, хибнонегати́вний рі́вень (англ. false negative rate) — це частка із позитивних, які дають негативний результат за цього тесту, тобто, умовна ймовірність негативного результату тесту за умови наявності шуканої умови.

У перевірці статистичних гіпотез цю частку позначують грецькою літерою β. «Потужність» (англ. «power», або «чутливість», англ. «sensitivity») тесту дорівнює 1 − β.

Неоднозначність у визначенні хибнопозитивного рівня

Термін «рівень хибного виявляння» (РХВ, англ. false discovery rate, FDR) використовував Колкагун (2014)^[4] для позначення ймовірності того, що «значущий» результат був хибно позитивним. Пізніше Колкагун (2017)^[2] використовував для тієї ж величини термін «хибнопозитивний ризик» (англ. false positive risk, FPR), щоби запобігти плутанині з терміном РХВ, що використовують люди, які працюють із множинними порівняннями. Коригування для множинних порівнянь мають на меті коригування лише рівня помилок першого роду, тож результат є (скоригованим) p-значенням. Таким чином, вони є вразливими для такого ж неправильного тлумачення, як і будь-яке інше p-значення. Хибнопозитивний ризик є завжди вищим, часто набагато вищим за p-значення.^[4]^[2]

Переплутування цих двох ідей, помилка транспонованого обумовлення, наробила багато лиха.^[5] Через неоднозначність позначень у цій галузі важливо дивитися на визначення в кожній праці. Небезпеки покладання на p-значення підкреслив Колкагун (2017),^[2] вказавши, що навіть спостереження p = 0,001 не обов'язково було сильним свідченням проти нульової гіпотези. Незважаючи на те, що відношення правдоподібностей на користь альтернативної гіпотези над нульовою є близьким до 100, якщо ця гіпотеза була неправдоподібною, з апріорною ймовірністю реального ефекту 0,1, то навіть спостереження p = 0,001 матиме хибнопозитивний рівень 8 відсотків. Він не досягне навіть 5-відсоткового рівня. Як наслідок, було рекомендовано^[2]^[6] супроводжувати кожне p-значення апріорною ймовірністю існування реального ефекту, яку необхідно було би прийняти для досягнення хибнопозитивного ризику 5 %. Наприклад, якщо ми спостерігаємо p = 0,05 в єдиному експерименті, то щоби досягти хибнопозитивного ризику 5 %, до здійснення цього експерименту ми повинні бути впевненими в існуванні реального ефекту на 87 %.

Робоча характеристика приймача

Стаття «Робоча характеристика приймача» розглядає параметри в статистичній обробці сигналів, що ґрунтуються на співвідношеннях похибок різних типів.

Виноски

↑ При розробці алгоритмів виявляння або тестів необхідно обирати баланс між ризиками хибно негативних та хибно позитивних. Зазвичай існує поріг того, наскільки близького збігу з заданим зразком мусить бути досягнуто, щоби алгоритм повідомив про збіг. Що вищим є цей поріг, то більше хибно негативних, і менше хибно позитивних.

Примітки

↑ False Positives and False Negatives (англ.)
↑ ^а ^б ^в ^г ^д Colquhoun, David (2017). The reproducibility of research and the misinterpretation of p-values. Royal Society Open Science. 4 (12): 171085. doi:10.1098/rsos.171085. PMC 5750014. PMID 29308247. (англ.)
↑ Banerjee, A; Chitnis, UB; Jadhav, SL; Bhawalkar, JS; Chaudhury, S (2009). Hypothesis testing, type I and type II errors. Ind Psychiatry J. 18 (2): 127—31. doi:10.4103/0972-6748.62274. PMC 2996198. PMID 21180491.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)
↑ ^а ^б Colquhoun, David (2014). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science. 1 (3): 140216. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558. (англ.)
↑ Colquhoun, David. The problem with p-values. Aeon. Aeon Magazine. Процитовано 11 грудня 2016. (англ.)
↑ Colquhoun, David (2018). The false positive risk: A proposal concerning what to do about p values. The American Statistician. 73: 192—201. arXiv:1802.04888. doi:10.1080/00031305.2018.1529622. (англ.)

Див. також

Хлопчик, який кричав «вовк»

Посилання

Daily chart — Unlikely results — Why most published scientific research is probably false — ілюстрація хибно позитивних та хибно негативних у журналі «Економіст» зі статті Problems with scientific research How science goes wrong Scientific research has changed the world. Now it needs to change itself (19 жовтня 2013) (англ.)

[4] При розробці алгоритмів виявляння або тестів необхідно обирати баланс між ризиками хибно негативних та хибно позитивних. Зазвичай існує поріг того, наскільки близького збігу з заданим зразком мусить бути досягнуто, щоби алгоритм повідомив про збіг. Що вищим є цей поріг, то більше хибно негативних, і менше хибно позитивних.

[1] False Positives and False Negatives (англ.)

[DC2017-2] а ^б ^в ^г ^д Colquhoun, David (2017). The reproducibility of research and the misinterpretation of p-values. Royal Society Open Science. 4 (12): 171085. doi:10.1098/rsos.171085. PMC 5750014. PMID 29308247. (англ.)

[fn-3] Banerjee, A; Chitnis, UB; Jadhav, SL; Bhawalkar, JS; Chaudhury, S (2009). Hypothesis testing, type I and type II errors. Ind Psychiatry J. 18 (2): 127—31. doi:10.4103/0972-6748.62274. PMC 2996198. PMID 21180491.{{cite journal}}: Обслуговування CS1: Сторінки із непозначеним DOI з безкоштовним доступом (посилання) (англ.)

[DC2014-5] а ^б Colquhoun, David (2014). An investigation of the false discovery rate and the misinterpretation of p-values. Royal Society Open Science. 1 (3): 140216. doi:10.1098/rsos.140216. PMC 4448847. PMID 26064558. (англ.)

[DC2016-6] Colquhoun, David. The problem with p-values. Aeon. Aeon Magazine. Процитовано 11 грудня 2016. (англ.)

[DC2018-7] Colquhoun, David (2018). The false positive risk: A proposal concerning what to do about p values. The American Statistician. 73: 192—201. arXiv:1802.04888. doi:10.1080/00031305.2018.1529622. (англ.)

[1]

[2]

[3]

[a]

[4]

[5]

[6]