Помилки першого і другого роду

Помилки першого роду (англ. type I errors α errors, false positives) та помилки другого роду (англ. type II errors β errors, false negatives) — поняття математичної статистики та її прикладних застосувань, які виникають під час перевірки статистичних гіпотез. Дані поняття часто використовуються в різних галузях науки і техніки, коли йдеться про ухвалення «бінарного» рішення (так/ні) на основі якогось критерію (тесту, перевірки, вимірювання), який з деякою ймовірністю може давати помилковий результат. Якщо істинна гіпотеза помилково відкидається, то ця помилка називається помилкою першого роду. Якщо помилково приймається хибна гіпотеза — це помилка другого роду.

Визначення ред.

Нехай дано вибірку $\mathbf {X} =(X_{1},\ldots ,X_{n})^{\top }$ з невідомого розподілу $\mathbb {P} ^{\mathbf {X} }$ , і поставлена бінарна задача перевірки статистичних гіпотез:

{\begin{matrix}H_{0}\\H_{1},\end{matrix}}

де $H_{0}$ — нульова гіпотеза, а $H_{1}$ — альтернативна гіпотеза. Припустимо, що заданий статистичний критерій

f:\mathbb {R} ^{n}\to \{H_{0},H_{1}\}

,

що зіставляє кожній реалізації вибірки $\mathbf {X} =\mathbf {x}$ одну з гіпотез, які маємо. Тоді можливі чотири ситуації:

Розподіл $\mathbb {P} ^{\mathbf {X} }$ вибірки $\mathbf {X}$ відповідає гіпотезі $H_{0}$ , і вона точно визначена статистичним критерієм, тобто $f(\mathbf {x} )=H_{0}$ .
Розподіл $\mathbb {P} ^{\mathbf {X} }$ вибірки $\mathbf {X}$ відповідає гіпотезі $H_{0}$ , але вона неправильно знехтувана статистичним критерієм, тобто $f(\mathbf {x} )=H_{1}$ .
Розподіл $\mathbb {P} ^{\mathbf {X} }$ вибірки $\mathbf {X}$ відповідає гіпотезі $H_{1}$ , і вона точно визначена статистичним критерієм, тобто $f(\mathbf {x} )=H_{1}$ .
Розподіл $\mathbb {P} ^{\mathbf {X} }$ вибірки $\mathbf {X}$ відповідає гіпотезі $H_{1}$ , але вона неправильно знехтувана статистичним критерієм, тобто $f(\mathbf {x} )=H_{0}$ .

У другому і четвертому випадку говорять, що відбулася статистична помилка, і її називають похибкою першого і другого роду відповідно.


		Істинна гіпотеза
				$H_{0}$	$H_{1}$
Результат застосування критерію	$H_{0}$	$H_{0}$ правильно прийнята	$H_{0}$ неправильно прийнята (Похибка другого роду)
Результат застосування критерію	$H_{1}$	$H_{0}$ неправильно знехтувана (Похибка першого роду)	$H_{0}$ правильно знехтувана

Про суть помилок першого і другого роду ред.

Як видно з вищенаведеного визначення, похибки першого і другого роду є взаємно-симетричними, тобто якщо поміняти місцями гіпотези $H_{0}$ и $H_{1}$ , то похибки першого роду перетворяться на похибки другого роду і навпаки. Проте, в більшості практичних ситуацій плутанини не відбувається, оскільки прийнято вважати, що нульова гіпотеза $H_{0}$ відповідає стану «за умовчанням» (природному, найбільш очікуваному стану речей) — наприклад, що обстежена людина здорова, або що проходить через рамку детектора металлу пасажир не має заборонених металевих предметів. Відповідно, альтернативна гіпотеза $H_{1}$ позначає протилежну ситуацію, яка зазвичай трактується як менш імовірна, неординарна, така, що вимагає якої-небудь реакції.

З урахуванням цього похибку першого роду часто називають помилковою тривогою, помилковим спрацьовуванням — наприклад, аналіз крові показав наявність захворювання, хоча насправді людина здорова, або детектор металу видав сигнал тривоги, відреагувавши на металеву пряжку ременя. Через можливості помилкових спрацьовувань не вдається повністю автоматизувати боротьбу з багатьма видами погроз. Як правило, ймовірність помилкового спрацьовування корелює з імовірністю пропуску події (похибки другого роду). Тобто, чим чутливіша система, тим більше небезпечних подій вона детектує і, отже, запобігає. Але при підвищенні чутливості неминуче зростає і ймовірність помилкових спрацьовувань. Тому занадто чутливо (параноїдально) настроєна система захисту може звиродніти в свою протилежність і привести до того, що побічна шкода від неї перевищуватиме користь.

Відповідно, похибку другого роду іноді називають пропуском події — людина хвора, але аналіз крові цього не показав, або у пасажира є холодна зброя, але рамка детектора металу не виявила (наприклад, через те, що чутливість рамки відрегульована на виявлення тільки дуже масивних металевих предметів).

Ступінь чутливості системи захисту повинен бути компромісом між імовірністю похибок першого і другого роду. Де саме знаходиться точка балансу, залежить від оцінки ризиків обох видів помилок.

Ймовірності помилок (рівень значущості і потужність) ред.

Ймовірність похибки першого роду при перевірці статистичних гіпотез називають рівнем значущості і зазвичай позначають грецькою буквою $\alpha$ (звідси назва $\alpha$ -errors).

Ймовірність похибки другого роду не має якоїсь особливої загальноприйнятої назви, на папері позначається грецькою буквою $\beta$ (звідси $\beta$ -errors). Проте з цією величиною тісно зв'язана інша, що має велике статистичне значення — потужність критерію. Вона обчислюється за формулою $(1-\beta )$ . Таким чином, чим вище потужність, тим менше імовірність зробити похибку другого роду.

Обидві ці характеристики зазвичай обчислюються за допомогою так званої функції потужності критерію. Зокрема, ймовірність похибки першого роду є функцією потужності, обчисленою при нульовій гіпотезі. Для критеріїв, заснованих на вибірці фіксованого обсягу, ймовірність похибки другого роду є одиниця мінус функція потужності, обчислена в припущенні, що розподіл спостережень відповідає альтернативній гіпотезі. Для послідовних критеріїв це також правильно, якщо критерій зупиняється з ймовірністю одиниця (при даному розподілі з альтернативи).

У статистичних тестах зазвичай доводиться йти на компроміс між прийнятним рівнем похибок першого і другого роду. Часто для ухвалення рішення використовується порогове значення, яке може варіюватися з метою зробити тест суворішим або, навпаки, м'якшим. Цим пороговим значенням є рівень значущості, яким задаються при перевірці статистичних гіпотез. Наприклад, у випадку детектора металу, підвищення чутливості приладу приведе до збільшення ризику похибки першого роду (помилкова тривога), а пониження чутливості — до збільшення ризику похибки другого роду (пропуск забороненого предмету).

Приклади використання ред.

Радіолокація ред.

У завданні радіолокаційного виявлення повітряних цілей, перш за все в системі протиповітряної оборони, помилки першого і другого роду, з формулюванням «помилкова тривога» і «пропуск цілі» є одним з основних елементів як теорії, так і практики побудови радіолокаційних станцій. Ймовірно, це перший приклад послідовного застосування статистичних методів в цілій технічній області.

Комп'ютери ред.

Поняття помилок першого і другого роду широко використовуються в області комп'ютерів і програмного забезпечення.

Комп'ютерна безпека ред.

Наявність слабких місць в обчислювальних системах призводить до того, що доводиться, з одного боку, вирішувати задачу збереження цілісності комп'ютерних даних, а з іншого боку — забезпечувати нормальний доступ легальних користувачів до цих даних (див. комп'ютерна безпека). Moulton (1983, с. 125) відзначає, що в даному контексті можливі такі небажані ситуації:

коли авторизовані користувачі класифікуються як порушники (помилки першого роду)
коли порушники класифікуються як авторизовані користувачі (помилки другого роду)

Фільтрація спаму ред.

Помилки першого роду відбувається, коли механізм блокування/фільтрації спаму помилково класифікує легітимне email-повідомлення як спам і перешкоджає його нормальній доставці. Тоді як більшість антиспам-алгоритмів здатні блокувати/фільтрувати великий відсоток небажаних email-повідомлень, набагато важливішим завданням є мінімізувати число «помилкових тривог» (помилкових блокувань потрібних повідомлень).

Похибка другого роду відбувається, коли антиспам-система помилково пропускає небажане повідомлення, класифікуючи його як «не спам». Низький рівень таких помилок є індикатором ефективності антиспам-алгоритму.

Поки не вдалося створити антиспамову систему без кореляції між ймовірністю похибок першого і другого роду. Ймовірність пропустити спам у сучасних систем коливається в межах від 1 % до 30 %. Ймовірність помилково відкинути легітимне повідомлення — від 0,001 % до 3 %. Вибір системи і її настройок залежить від умов конкретного одержувача: для одних одержувачів ризик втратити 1 % хорошої пошти оцінюється як незначний, для інших же втрата навіть 0,1 % є неприпустимою.

Шкідливе програмне забезпечення ред.

Поняття похибки першого роду також використовується, коли антивірусне програмне забезпечення помилково класифікує нешкідливий файл як вірус. Неправильне виявлення може бути викликане особливостями евристики, або неправильною сигнатурою вірусу в базі даних. Подібні проблеми можуть відбуватися також і з антитроянськими і антишпигунськими програмами.

Пошук в комп'ютерних базах даних ред.

При пошуку в базі даних, до похибок першого роду можна віднести документи, які видаються пошуком, не зважаючи на їхню іррелевантність (невідповідність) пошуковому запиту. Помилкові спрацьовування характерні для повнотекстового пошуку, коли пошуковий алгоритм аналізує повні тексти всіх даних документів, що зберігаються в базі, і намагається знайти відповідності одному або декільком термінам, заданим користувачем в запиті.

Більшість помилкових спрацьовувань обумовлені складністю природних мов, багатозначністю слів: наприклад, «home» може позначати як «місце мешкання людини», так і «кореневу сторінку вебсайту». Число подібних помилок може бути понижене шляхом використання спеціального словника. Проте, це рішення відносне дороге, оскільки подібний словник і розмітка документів (індексування) повинні створюватися експертом.

Оптичне розпізнавання текстів (OCR) ред.

Різноманітні алгоритми розпізнавання нерідко видають похибки першого роду. Програмне забезпечення оптичного розпізнавання текстів може розпізнати букву «a» за ситуації, коли насправді зображено декілька крапок, які використовуваний алгоритм розцінив як «a».

Огляд пасажирів і багажу ред.

Похибки першого роду регулярно зустрічаються щодня в комп'ютерних системах попереднього огляду пасажирів в аеропортах. Встановлені в них детектори призначені для запобігання проносу зброї на борт літака; проте, рівень чутливості в них часто настроюється настільки високо, що багато раз за день вони спрацьовують на незначні предмети, такі як ключі, пряжки ременів, монети, мобільні телефони, гати в підошвах взуття тощо (див. виявлення вибухових речовин, детектори металу).

Таким чином, співвідношення числа помилкових тривог (ідентифікація пересічного пасажира як терориста) до правильних спрацьовувань (виявлення дійсно заборонених предметів) дуже велике.

Біометрія ред.

Похибки першого і другого роду є великою проблемою в системах біометричного сканування, що використовують розпізнавання райдужної оболонки або сітківки ока, рис обличчя і т. д. Такі системи сканування можуть помилково ототожнити когось з іншою особою, «відомою» системі, інформація про яку зберігається в базі даних (наприклад, це може бути особа, що має право входу в систему, або злочинець, який розшукується, тощо). Протилежною помилкою буде нездатність системи розпізнати легітимного зареєстрованого користувача, або пізнати підозрюваного в злочині.^[1]

Масова медична діагностика (скринінг) ред.

В медичній практиці є суттєва відмінність між скринінгом і тестуванням:

Скринінг включає відносно дешеві тести, які проводяться для великої групи людей за відсутності яких-небудь клінічних ознак хвороби (наприклад мазок Папаніколау).
Тестування має на увазі набагато більш дорогі, часто інвазивні, процедури, які проводяться тільки для тих, у кого виявляються клінічні ознаки захворювання, і які в основному застосовуються для підтвердження передбачуваного діагнозу.

Наприклад, в більшості штатів в США обов'язкове проходження новонародженими процедури скринінгу на оксифенілкетонурію і гипотіреоз, крім інших природжених аномалій. Не зважаючи на високий рівень похибок першого роду, ці процедури скринінгу вважаються за доцільне, оскільки вони істотно збільшують ймовірність виявлення цих розладів на найранішій стадії.^[2] Прості аналізи крові, що використовуються для скринінгу потенційних донорів на ВІЛ і гепатит, мають істотний рівень похибок першого роду; проте в арсеналі лікарів є набагато точніші (і, відповідно, дорожчі) тести для перевірки, чи дійсно людина інфікована яким-небудь із цих вірусів.

Можливо, найбільш широкі дискусії викликають похибки першого роду в процедурах скринінгу на рак грудей (мамографія). У США рівень похибок першого роду в мамограмах досягає 15 %, це найвищий показник у світі.^{[джерело?]}^[3] Найнижчий рівень спостерігається в Нідерландах, 1 %.^{[джерело?]}^[4]

Медичне тестування ред.

Похибки другого роду є істотною проблемою в медичному тестуванні. Вони дають пацієнтові і лікареві помилкове переконання, що захворювання відсутнє, тоді як насправді воно є. Це часто приводить до недоречного або неадекватного лікування. Типовим прикладом є довіра результатам кардіотестування при виявленні коронарного атеросклерозу, хоча відомо, що кардіотестування виявляє тільки ті затруднення кровотоку в коронарній артерії, які викликані стенозом.

Похибки другого роду викликають серйозні і важкі для розуміння проблеми, особливо коли шукана умова є широко розповсюдженою. Якщо тест з 10%-вим рівнем похибок другого роду використовується для обстеження групи, де ймовірність «істинно-позитивних» випадків становить 70 %, то багато негативних результатів тесту виявляться помилковими.

Похибки першого роду також можуть викликати серйозні і важкі для розуміння проблеми. Це відбувається, коли шукана умова є рідкісною. Якщо рівень похибок першого роду в тесті складає один випадок на десять тисяч, але в тестованій групі зразків (або людей) ймовірність «істинно-позитивних» випадків складає в середньому один випадок на мільйон, то більшість позитивних результатів цього тесту будуть помилковими.^[5]

Див. також ред.

Примітки ред.

↑ Цей приклад якраз характеризує випадок, коли класифікація помилок залежатиме від призначення системи: якщо біометричне сканування використовується для допуску співробітників (нульова гіпотеза: «людина, що проходить сканування, дійсно є співробітником»), то помилкове ототожнення буде похибкою другого роду, а «не впізнавання» — похибкою першого роду; якщо ж сканування використовується для впізнання злочинців (нульова гіпотеза: «людина, що проходить сканування, не є злочинцем»), то помилкове ототожнення буде похибкою першого роду, а «не впізнавання» — похибкою другого роду.
↑ Относительно скринінгу новонароджених, останні дослідження показали, що кількість похибок першого роду в 12 разів більша, ніж кількість правильних виявлень (Gambrill, 2006. [1])
↑ Одним з наслідків такого високого рівня похибок першого роду в США є те, що за довільний 10-річний період половина обстежуваних американських жінок отримують як мінімум одну хибну мамограму. Такі помилкові мамограми обходяться дорого, приводячи до щорічних витрат в 100 мільйонів доларів на подальше (непотрібне) лікування. Крім того, вони викликають зайву тривогу у жінок. В результаті високого рівня подібних похибок першого роду в США, приблизно у 90-95 % жінок, що отримали хоч би раз в житті позитивну мамограму, насправді захворювання відсутнє.
↑ Найнижчі рівні цих похибок спостерігаються в північній Європі, де маммографічні плівки прочитуються двічі, і для додаткового тестування встановлюється підвищене порогове значення (високий поріг знижує статистичну ефективність тесту).
↑ Ймовірність того, що видаваний тестом результат опиниться похибкою першого роду, може бути обчислена з допомогою теореми Баєса.

[1] Цей приклад якраз характеризує випадок, коли класифікація помилок залежатиме від призначення системи: якщо біометричне сканування використовується для допуску співробітників (нульова гіпотеза: «людина, що проходить сканування, дійсно є співробітником»), то помилкове ототожнення буде похибкою другого роду, а «не впізнавання» — похибкою першого роду; якщо ж сканування використовується для впізнання злочинців (нульова гіпотеза: «людина, що проходить сканування, не є злочинцем»), то помилкове ототожнення буде похибкою першого роду, а «не впізнавання» — похибкою другого роду.

[2] Относительно скринінгу новонароджених, останні дослідження показали, що кількість похибок першого роду в 12 разів більша, ніж кількість правильних виявлень (Gambrill, 2006. [1])

[3] Одним з наслідків такого високого рівня похибок першого роду в США є те, що за довільний 10-річний період половина обстежуваних американських жінок отримують як мінімум одну хибну мамограму. Такі помилкові мамограми обходяться дорого, приводячи до щорічних витрат в 100 мільйонів доларів на подальше (непотрібне) лікування. Крім того, вони викликають зайву тривогу у жінок. В результаті високого рівня подібних похибок першого роду в США, приблизно у 90-95 % жінок, що отримали хоч би раз в житті позитивну мамограму, насправді захворювання відсутнє.

[4] Найнижчі рівні цих похибок спостерігаються в північній Європі, де маммографічні плівки прочитуються двічі, і для додаткового тестування встановлюється підвищене порогове значення (високий поріг знижує статистичну ефективність тесту).

[5] Ймовірність того, що видаваний тестом результат опиниться похибкою першого роду, може бути обчислена з допомогою теореми Баєса.

[1]

[2]

[3]

[4]

[5]