Відкрити головне меню

Перевірка статистичних гіпотез — клас базових задач в математичній статистиці, що полягають у перевірці статистичних гіпотез на основі даних спостереження за процесом, який моделюється за допомогою множини випадкових величин.[1] Перевірка статистичних гіпотез є методом статистичного висновування.

Альтернативний метод перевірки статистичних гіпотез полягає у визначенні множини статистичних моделей, по одній для кожної гіпотези кандидата, після чого використовуються техніки відбору моделі, аби вибрати ту, яка підходить найбільше.[2] Найбільш загальні техніки відбору моделей основані на інформаційному критерії Акаіке або коефіцієнті Баєса.

Протилежністю такого аналізу вибірки може бути розвідувальний аналіз вибірки, який може не мати наперед визначених гіпотез.

Статистичні гіпотези не слід плутати із науковими гіпотезами. Наукові гіпотези прагнуть дати пояснення природним явищам, в той час як статистичні гіпотези як правило використовують для встановлення факту існування зв'язку (або його відсутність) між вибірками даних. Таким прикладом, методи медичного лікування, де статистична гіпотеза використовується як спроба ілюстрації, з мірою статистичної значимості, чи ліки діють краще за плацебо. Наукова гіпотеза потім шукатиме пояснення результатів, незалежно від результатів перевірки статистичної гіпотези.

Зміст

Статистичні гіпотезиРедагувати

ВизначенняРедагувати

Нехай у (статистичному) експерименті спостерігається реалізація   деякої випадкової величини  , розподіл якої   невідомий повністю чи частково. Тоді будь-яке твердження, що стосується  , називається статистичною гіпотезою. Гіпотези розрізняються за видом припущень, що містяться в них:

  • Статистична гіпотеза, що однозначно визначає розподіл  , тобто  , де   якийсь конкретний закон, що має назву простий.
  • Статистична гіпотеза, що стверджує, що розподіл   належить до деякої сім'ї розподілів, тобто виду  , де   — сім'ю розподілів, що має назву складна.

На практиці зазвичай потрібно перевірити якусь конкретну і, як правило, просту гіпотезу  . Таку гіпотезу прийнято називати нульовою. При цьому паралельно розглядається гіпотеза, що суперечить їй  , що називається конкуруючою або альтернативною.

Висунута гіпотеза потребує перевірки, яка здійснюється статистичними методами, тому гіпотезу називають статистичною. Для перевірки гіпотези використовують критерії, що дозволяють прийняти або спростувати гіпотезу.

В більшості випадків статистичні критерії засновані на випадковій вибірці   фіксованого об'єму   з розподілу  . У послідовному аналізі вибірка формується в ході самого експерименту і тому її об'єм є випадковим величиною.

ПрикладРедагувати

Нехай дано незалежну вибірку   з нормального розподілу, де   — невідомий параметр. Тоді  , де   — фіксована стала, є простою гіпотезою, а альтернативна до неї   — складною.

Визначення термінівРедагувати

Наступні визначення термінів в основному взяті із тлумачень в книзі Леманна і Романо:[3]

Статистична гіпотеза 
Твердження щодо параметрів, які описують сукупність (не вибірку).
Статистика 
Значення розраховане із вибірки, що часто підсумовують вибірку з метою порівняння.
Проста гіпотеза 
Будь-яка гіпотеза яка повністю визначає розподіл сукупності.
Складна гіпотеза 
Будь-яка гіпотеза, яка не визначає розподіл сукупності повністю.
Нульова гіпотеза (H0
Гіпотеза яка протирічить теоретичному припущенню, яке необхідно довести.
Успішні дані 
Дані, які дозволяють досліднику відкинути нульову гіпотезу.
Альтернативна гіпотеза[en] (H1
Гіпотеза (як правило складна) пов'язана із теорію, яку бажають підтвердити.
Статистична перевірка (випробування, тест) 
Процедура, входами якої є вибірки, а результатом гіпотеза.
Область прийняття 
Множина значень тестової статистики для яких не виходить відкинути нульову гіпотезу.
Область відкидання / Критична область
Множина значень тестової статистики, для яких нульова гіпотеза відкидається.
Критичне значення[en]
Порогове значення, яке розмежовує область прийняття і відкидання для тестової статистики.
Потужність випробування (1 − β)
Імовірність для випробування, що визначає правильність відкидання нульової гіпотези. Доповнення до хибно негативної частоти, β. Потужність називається чутливістю в області біостатистики. ("Ця перевірка є перевіркою на чутливість, оскільки результат є негативним, можна із упевненістю зробити висновок, що пацієнт не має цього стану.") Див. Чутливість і специфічність[en] і Помилки першого і другого роду за більш вичерпними визначеннями.
Розмір[en] випробування
Для простої гіпотези це імовірність неправильного відкидання нульової гіпотези при випробуванні. Хибно позитивна частота. Для складних гіпотез це супремум імовірності відкидання нульової гіпотези по всім випадках, які покриває нульова гіпотеза. В біостатистиці Доповнення до хибно позитивної частоти називається специфічністю. ("Це специфічною перевіркою оскільки при позитивному результаті, ми можемо з упевненістю заключити, що пацієнт має цей стан.") Див. Чутливість і специфічність[en] і Помилки першого і другого роду за більш вичерпними визначеннями.
Рівень значимості тесту (α)
Це верхня межа накладається на розмір випробування. Це значення, яке обирає статист перед тим як вивчити дані або обрати будь-який спосіб перевірки, який застосувати. Це максимальний показник помилкового відхилення H0, який дослідник готовий допустити. Перевірка H0 на рівні значимості α означає перевірку H0, при якій розмір випробування не перевищує α. В більшості випадків, використовують випробування розмір якого дорівнює рівню значимості.
p-значення
Ймовірність, припущення, що нульова гіпотеза є вірною, спостереження результату близького до такого екстремуму що відповідає статистиці тесту.
Статистична значимість тесту 
попередник перевірки статистичних гіпотез. Результат експерименту вважався статистично значущим, якщо вибірка була достатньо несумісною із (нульовою) гіпотезою. Це по різному розглядали у загальному сенсі, прагматична евристика для встановлення значущості експериментальних результатів, конвенція, яка встановлювала порогове значення статистичного доведення або метод для отримання висновків із даних. Метод перевірки статистичних гіпотез додав цьому математичної суворості і філософську послідовність поняттю, зробивши альтернативну гіпотезу однозначною. Цей термін тепер використовується здебільшого для описання сучасної версії, яка тепер є частиною перевірки статистичних гіпотез.

Етапи перевірки статистичних гіпотезРедагувати

  1. Формулювання основної гіпотези   і конкуруючої гіпотези  . Гіпотези повинні бути чітко формалізовані в математичних термінах.
  2. Задання вірогідності  , що називається рівнем значущості і що відповідає помилкам першого роду, на якому надалі і буде зроблений висновок про правдивість гіпотези.
  3. Розрахунок статистики   критерію такий, що:
    • її величина залежить від початкової вибірки  ;
    • за її значенням можна зробити висновки про істинність гіпотези  ;
    • сама статистика   повинна підкорятися якомусь невідомому закону розподілу, так як сама   є випадковою в силу випадковості  .
  4. Побудова критичної області. З області значень   виділяємо підмножину   таких значень, за якими можна судити про суттєвість розбіжностей з припущенням. Її розмір вибирається таким чином, щоб виконувалась рівність  . Ця множина   і називається критичною областю.
  5. Висновок про істинність гіпотези. Спостережувані значення вибірки підставляються в статистику   і за попаданням (або непопаданням) у критичну область   виноситься ухвала про відкидання (або ухвалення) висунутої гіпотези  .

Види критичної областіРедагувати

  • Двобічна критична область визначається двома інтервалами  , де   знаходять з умов  .
  • Лівобічна критична область визначається інтервалом  , де   знаходять з умови  .
  • Правобічна критична область визначається інтервалом  , де   знаходять з умови  .

ПрикладиРедагувати

Співвідношення статей народжуваних людейРедагувати

Одне із найперших застосувань статистичної перевірки гіпотез присвячувалося дослідженню питання: чи є однаково вірогідним народження чоловіків і жінок (як нульової гіпотези), яке розглядав Джон Арбутнот[en] в 1700-их роках,[4], а згодом П'єр-Симон Лаплас (в 1770-их).[5]

Арбутнот дослідив записи про народження дітей в Лондоні для 82 років від 1629 до 1710, і застосував критерій знаків[en], просту непараметризовану статистичну перевірку[en].[6][7][8] В кожному із досліджених років, кількість народжених хлопчиків, перевищувала кількість народжених дівчаток. Розглядаючи рівноймовірним народження більшої кількості чоловіків або більшої кількості жінок, імовірність спостережуваного результату складала 0.582, або близько 1 на 4836000000000000000000000; в сучасних термінах, це є p-значенням. Це є неймовірно малим, після чого Арбутнот зробив висновок, що це не є випадковістю, а божим провидінням: "Звідки випливає, що цим процесом керує Творчість, а не Випадок." Кажучи більш сучасними термінами, він відкинув нульову гіпотезу щодо рівності шансів народження хлопчика чи дівчинки із рівнем значимості p = 1/282.

Лаплас дослідив статистику майже половини мільйона народжень. Статистику показала більшу кількість народжуваних хлопчиків ніж дівчаток.[9][10] Розрахувавши p-значення, він зробив висновок, що ця перевага в чисельності є справжнім, але не поясненим явищем.[11]

Леді, що куштує чайРедагувати

В одному із відомих прикладів перевірки статистичної гіпотези, в якому Леді пробує чай,[12] Др. Маріель Брістол[en], колега Фішера стверджувала, що вона здатна визначити в якому порядку було налито чай: чай чи молоко було налито першим у чашку. Фішер запропонував налити їй на пробу вісім чашок чаю у випадковому порядку, по чотири із кожним варіантом. Було поставлене питання з якою імовірністю випадковим чином її відповідь буде вдалою. Нульова гіпотеза передбачала, що леді не має такої здатності відрізнити чай. Тест полягав у простому підрахунку кількість вдалих спроб із вибраних 4 чашок чаю. Критичним інтервалом був єдиний випадок із 4 вдалих вгадувань із 4 можливих, що базувався на традиційному критерії імовірності (< 5%). Випадок із 4 вгадуваннями відповідає 1 із 70 можливих комбінацій (p≈ 1.4%). Фішер стверджував, що ніякої альтернативної гіпотези не потрібно. Леді вірно визначила кожну чашку,[13], що вважалося статистично значимим результатом.

СудочинствоРедагувати

Процедуру статистичної перевірки можна порівняти із законами правосуддя; обвинувачений вважається невинним доки його чи її вина не доведена. Прокурор намагається довести вину обвинуваченого. І лише тоді, коли доказів для обвинувачення буде достатньо, лише тоді обвинувачений буде засуджений.

На початку процедури, існує дві гіпотези  : стверджує, що "обвинувачений є невинним", і  : "обвинувачений є винним". Перша гіпотеза,  , називається нульовою гіпотезою, і на початковому етапі вона прийнята. Друга,  , називається альтернативною гіпотезою. Це та альтернативна гіпотеза, яку ми намагаємося довести.

Гіпотеза про невинуватість буде відкинута лише тоді, коли помилка дуже малоймовірна, оскільки небажано засуджувати невинного обвинувачуваного. Така помилка називається помилкою першого роду (тобто, засудження невинної особи), контролюють аби ця помилка була невеликою. Як наслідок асиметричної поведінки, помилка другого роду (виправдання особи, яка чинила злочин), є більш поширеною.

H0 вірна
Дійсно не винний
H1 вірна
Дійсно винний
Прийняття нульової гіпотези
Виправдання
Вірне рішення Невірне рішення
Помилка II роду
Відкидання нульової гіпотези
Засудження
Невірне рішення
Помилка I роду
Вірне рішення

Процес судочинства можна розглядати як один з двох або обидва процеси прийняття рішення: винний чи не винний, або докази проти непевності ("за межею певного розумного сумніву"). З одного боку, оцінюється обвинувачений; з іншого боку оцінюється ефективність обвинувачення (вага винесених доказів). Перевірку статистичної гіпотези можна сприймати як засудження гіпотези, або засудження доказів.

Філософські бобиРедагувати

Наступний приклад описувався філософом, який описував сімейство наукових методів до того, як перевірка гіпотез була формалізована і популяризована.[14]

Декілька бобів із цієї жменьки є білими.
Більшість бобів із цієї торбинки є білими.
Тому: ймовірно, ці боби були взяті із іншої торбинки.
Це гіпотетичний висновок.

Боби у торбинці є генеральною сукупністю. Жменька бобів є вибіркою (зразком). Нульовою гіпотезою є припущення, що вибірка була взята із певної сукупності. Критерієм відхилення нульової гіпотези є "очевидна" різниця зовнішнього вигляду (не формальна відмінність у середньому). Цікавим є висновок із того, що розглядаючи реальну сукупність і реальну вибірку, було отримано висновок про уявну торбинку. Філософ розглядав логіку, а не ймовірність. Аби бути справжньою статистичною перевіркою гіпотези, цей приклад вимагає виконання формальностей із розрахунку ймовірності і порівняння отриманої імовірності із стандартною.

Просте узагальнення цього прикладу передбачає дослідження перемішаної торбинки із бобами і жменьки, яка містить або лише малу кількість або дуже багато білих бобів. При узагальненні розглядають два екстремуми. Це вимагає більше розрахунків і більше порівнянь, аби дати формальну відповідь, але основна суть філософії залишається незмінною; якщо склад жменьки сильно відрізняється від складу торбинки, тоді ймовірно цю вибірку було отримано із іншої торбинки. Початковий оригінальний приклад називають односторонньою перевіркою, в той час як його узагальнення називається двосторонньою перевіркою.

Твердження також спирається на припущення, що вибірка була випадковою. Якщо хтось навмисно вишукував і вибирав із торбинки білі боби, тоді це б могло пояснити, чому у жменьці так багато білих бобів, а також пояснює чому кількість білих бобів у торбинці була вичерпана (хоча, мабуть, мішок також передбачається повинен бути набагато більшим за одну жменю).

Див. такожРедагувати

ДжерелаРедагувати

ПриміткиРедагувати

  1. Stuart A., Ord K., Arnold S. (1999), Kendall's Advanced Theory of Statistics: Volume 2A—Classical Inference & the Linear Model (Arnold) §20.2.
  2. Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach (вид. 2nd). Springer-Verlag. ISBN 978-0-387-95364-9. .
  3. Lehmann, E. L.; Romano, Joseph P. (2005). Testing Statistical Hypotheses (вид. 3E). New York: Springer. ISBN 978-0-387-98864-1. 
  4. John Arbuthnot (1710). An argument for Divine Providence, taken from the constant regularity observed in the births of both sexes. Philosophical Transactions of the Royal Society of London 27 (325–336): 186–190. doi:10.1098/rstl.1710.0011. 
  5. Brian, Éric; Jaisson, Marie (2007). Physico-Theology and Mathematics (1710–1794). The Descent of Human Sex Ratio at Birth. Springer Science & Business Media. с. 1–25. ISBN 978-1-4020-6036-6. 
  6. Conover, W.J. (1999). Chapter 3.4: The Sign Test. Practical Nonparametric Statistics (вид. Third). Wiley. с. 157–176. ISBN 978-0-471-16068-7. 
  7. Sprent, P. (1989). Applied Nonparametric Statistical Methods (вид. Second). Chapman & Hall. ISBN 978-0-412-44980-2. 
  8. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty Before 1900. Harvard University Press. с. 225–226. ISBN 978-0-67440341-3. 
  9. Laplace, P. (1778). Mémoire sur les probabilités. Mémoires de l'Académie Royale des Sciences de Paris 9: 227–332. 
  10. Laplace, P. (1778). Mémoire sur les probabilités (XIX, XX). Oeuvres complètes de Laplace. Mémoires de l'Académie Royale des Sciences de Paris 9. с. 429–438. 
  11. Stigler, Stephen M. (1986). The History of Statistics: The Measurement of Uncertainty before 1900. Cambridge, Mass: Belknap Press of Harvard University Press. с. 134. ISBN 978-0-674-40340-6. 
  12. Fisher, Sir Ronald A. (1956) [1935]. Mathematics of a Lady Tasting Tea. У James Roy Newman. The World of Mathematics, volume 3 [Design of Experiments]. Courier Dover Publications. ISBN 978-0-486-41151-4.  Originally from Fisher's book Design of Experiments.
  13. Box, Joan Fisher (1978). R.A. Fisher, The Life of a Scientist. New York: Wiley. с. 134. ISBN 978-0-471-09300-8. 
  14. C. S. Peirce (August 1878). Illustrations of the Logic of Science VI: Deduction, Induction, and Hypothesis. Popular Science Monthly 13. Процитовано March 30, 2012.