Статистична потужність

Потужність або чутливість перевірки подвійної статистичної гіпотези — це ймовірність того, що тест правильно відкидає нульову гіпотезу (Н₀) коли альтернативна гіпотеза (Н₁) істина. Це можна еквівалентно розглядати як ймовірність прийняття альтернативної гіпотези (Н₁) Коли це істина, то тест може виявити ефект, якщо ефект дійсно існує. Тобто

{\text{power}}=\mathbb {P} {\big (}{\text{reject}}H_{0}{\big |}H_{1}{\text{ is true}}{\big )}

Потужність тесту іноді, менш формально, належить до ймовірності відхилення нульової, якщо це не є істиною, хоча це не формальне визначення, як зазначено вище. Потужність в загальному випадку є функцією можливих розподілів, часто визначається параметром, згідно з альтернативною гіпотезою. Якщо потужність збільшується, то зменшується ймовірність помилки II типу (хибно негативна), яку також називають похибкою першого та другого роду (β), оскільки потужність дорівнює 1−β, знову ж таки, згідно з альтернативною гіпотезою. Аналогічне поняття помилки першого роду також називають «хибнопозитивною» або на рівні тесту при нульовій гіпотезі.

Аналіз потужності може бути використаний для розрахунку мінімального обсягу вибірки, необхідного, щоб можна з достатнім ступенем ймовірності визначити вплив заданого розміру. Наприклад: «скільки разів треба кинути монету, щоб зробити висновок, що це фальсифіковано ?»^[1] Аналіз потужності може також використовуватися для розрахунку мінімального ефекту, який може бути виявлений у ході дослідження, використовуючи даний розмір вибірки. Крім того, поняття потужності використовується для порівняння між різними процедурами статистичних випробувань: наприклад, між параметричним і непараметричним тестом на тій же гіпотезі.

Передумова ред.

Статистичні тести використовують дані зі зразків для оцінки, чи роблять висновки про генеральну сукупність. У конкретній ситуації мета порівняння двох зразків, полягає в тому, щоб оцінити, чи відрізняються середні значення деякого атрибута, отримані для фізичних осіб в двох підгрупах. Наприклад, для перевірки нульової гіпотези про те, що середнє значення внеску чоловіків і жінок на тесті не відрізняються, виконується вибірка чоловіків і жінок, проводиться тест, потім результат однієї групи порівнюють з іншою групою з використанням статистичних тестів, наприклад двохвибіркового z-тесту. Потужністю тесту є ймовірність того, що тест знайде статистично значущу різницю між чоловіками і жінками, як функцію від розміру істинної різниці між цими двома популяціями.

Фактори, що впливають на потужність ред.

Статистична потужність може залежати від цілого ряду факторів. Деякі чинники можуть бути пов'язані з конкретними ситуаціями у тестуванні, але, як мінімум, потужність майже завжди залежить від таких трьох чинників:

від статистичної значущості критеріїв, використовуваних у тесті
величина ефекту інтересу населення
розмір вибірки використовується для визначення ефекту

Критерій значущості — це твердження про те, що навряд чи позитивний результат повинен бути, якщо нульова гіпотеза про відсутність ефекту істина, нульова гіпотеза повинна бути відхилена. Найбільш часто використовувані критерії ймовірності 0.05 (5 %, 1 з 20), 0.01 (1 %, 1 до 100), 0.001 (0.1 %, 1 на 1000). Якщо критерій становить 0,05, достовірність даних, маючи на увазі ефект, як мінімум, спостережуваний ефект, коли нульова гіпотеза вірна, повинен бути не менше 0,05, для нульової гіпотези про відсутність ефекту буде відхилено. Один простий спосіб збільшити потужність тесту є проведення менш консервативного тесту з використанням більшого значення критерію значущості, наприклад 0.10 замість 0.05. Це збільшує ймовірність відхилити нульову гіпотезу (тобто отримання статистично значущого результату), коли нульова гіпотеза хибна, то зменшується ризик типу II помилка (псевдонегативний щодо того, чи існує ефект). Але це також збільшує ризик отримання статистично значущого результату (тобто відхилення нульової гіпотези), коли нульова гіпотеза не хибна; тобто, це збільшує ризик помилки першого роду (помилковий позитивний результат).

Величина ефекту інтересу населення може бути визначена кількісно з точки зору ефекту, де є велика потужність, щоб виявити більше ефектів. Розмір ефекту може бути безпосереднє оцінкою величини інтересу, або він може бути стандартним показником, що також пояснює мінливість популяції. Наприклад, аналіз порівняння результатів експериментальної та контрольної популяції, різниця результатів означає Y − X було б прямою мірою ефекту розміру, в той час як (Y − X)/σ, де σ є загальне стандартне відхилення результату в оброблених і контрольних групах, був би стандартизований розмір ефекту. Якщо побудований відповідним чином, стандартизований розмір ефекту, поряд з розміром вибірки, то він буде повністю визначати потужність. Стандартизовано (прямий) розмір ефекту буде досить рідко, щоб визначити силу, так як він не містить інформації про мінливість в вимірах. Розмір вибірки визначає обсяг помилок вибірки, властиві результату тесту. За інших рівних умов, ефекти важче виявити в невеликих зразках. Збільшення розміру вибірки найчастіше є найпростішим способом підвищити статистичну потужність тесту. Як збільшення обсягу вибірки призводить до більш високої потужності — це показник ефективності тесту. Наприклад, розмір вибірки, необхідної для даної потужності.^[2]

Точність, з якою вимірюються дані також впливає на статистичну потужність. Отже, потужність часто може бути поліпшена за рахунок зменшення похибки вимірювання в даних. Пов'язана з цим концепція є підвищення «надійності» вимірювання оцінюється (як у психометрична надійність).

Планування експерименту або обсерваційне дослідження часто впливає на потужність. Наприклад, у двовибірковій ситуації з урахуванням загального розміру вибірки n, оптимальним є рівне число спостережень з двох груп, що порівнюються (до тих пір, як відмінності у двох популяціях стануть однакові). У регресійному аналізі та дисперсійному аналізі, існує безліч теорій і практичних стратегій, спрямованих на покращення потужності, заснованих на оптимальній установці значень незалежних змінних моделей.

Тлумачення ред.

Хоча немає ніяких формальних стандартів для потужності (іноді називають як π), більшість дослідників оцінюють потужність своїх тестів з допомогою π=0.80 у ролі стандарту для адекватності. Цей договір передбачає чотири до одного співвідношенню бета-ризику і альфа-ризику. (β-ймовірність помилки другого роду; α-це ймовірність помилки першого роду, і 0,2 і 0,05 звичайні значення для β і α). Однак, будуть часи, коли цей 4-до-1 зважування буде недоцільним. У медицині, наприклад, тести часто розробляються таким чином, що ніяких помилкових негативів (Тип II помилки) не буде зроблено. Але це неминуче підвищує ризик отримання хибно-позитивного результату (помилка першого роду). Пояснення таке, що краще скажи здоровому пацієнту «ми, можливо, знайшли щось-давайте перевіримо далі», ніж сказати хворому пацієнту «все добре».^[3]

Аналіз потужності підходить для випадків, коли проблема пов'язана з правильним відсортуванням, чи ні, з нульовою гіпотезою. У багатьох випадках питання йде про те, як визначити, якщо є, чи немає різниці, а скоріше з отриманням більш точної оцінки величини ефекту населення. Наприклад, якщо ми очікували кореляції між інтелектом населення і продуктивності праці близько 0,50,розмір вибірки в 20 дасть нам приблизно 80 % потужності (альфа = 0,05, два хвоста), щоб відхилити нульову гіпотезу про нульовий кореляції. Однак, у цьому дослідженні нас, напевно, більше цікавить, чи є кореляція 0.30 або 0.50 або 0.60. В зв'язку з цим нам буде потрібно набагато більший розмір вибірки, щоб зменшити довірчий інтервал нашої оцінки в діапазоні, який є прийнятним для наших цілей. Методи, аналогічних тим, які застосовуються в традиційному силовому аналізі можна використовувати для визначення обсягу вибірки, необхідної для ширини довірчого інтервалу повинна бути менше заданого значення.

Багато статистичних аналізів передбачає оцінку кількох невідомих величин. У простих випадках, все, крім однієї з цих величин є перешкодою параметра. В цих умовах, тільки відповідні потужності відносяться до єдиної величини, яка буде проходити формальний статистичний висновок. У деяких випадках, особливо якщо цілей більше «дослідницьких» може бути цілий ряд величин, що представляють інтерес для аналізу. Наприклад, у множині регресійного аналізу ми можемо включити кілька ковариантів, які представляють потенційний інтерес. У таких ситуаціях, як ця, де знаходиться кілька гіпотез на розгляді, вона є загальною, що повноваження, пов'язані з різними гіпотезами відрізняються. Наприклад, у множинному регресійному аналізі, потужність для виявлення впливу даного розміру має відношення до дисперсії коваріантів. Оскільки різні коваріанти будуть мати різні відхилення, їх повноваження будуть відрізнятися також.

Будь-який статистичний аналіз, що включає кілька гіпотез піддається інфляції типу I помилок, якщо відповідні заходи не будуть прийняті. Такі заходи, як правило, пов'язані із застосуванням більш високого порогу жорсткості, щоб відхилити гіпотезу для того, щоб компенсувати робляться множинні порівняння (наприклад, як метод Бонферроні). У цій ситуації потужність аналізу повинна відображати багаторазові тестування. Так, наприклад, дане дослідження може бути потужним, щоб виявити певний ефект розміру, коли тільки одне випробування, але той же ефект розміру може мати набагато більш низьку потужність, якщо виконати кілька випробувань.

Важливо також враховувати статистичну потужність тестової гіпотези при інтерпретації його результатів. Тестова потужність — це ймовірність правильно відкинути нульову гіпотезу, коли вона помилкова; Тестова потужність знаходиться під впливом вибору рівня значущості для випробування, розмір ефекту вимірюється, а кількість даних наявні. Гіпотензивний тест не може відхилити нульову гіпотезу, наприклад, якщо справжня різниця між двома популяціями в порівнянні з т-тестом, але ефект невеликого розміру вибірки занадто малий, щоб відрізнити ефект від випадковості.^[4] Численні клінічні випробування, наприклад, мають низьку статистичну потужність для виявлення відмінностей в побічних ефектах лікування, оскільки такі ефекти можуть бути рідкими, а кількість потерпілих пацієнтів невеликою.^[5]

Апріорний і постфактумний аналіз ред.

Аналіз потужності може бути зроблено раніше (апріорі або перспективному аналізу потужності) або після (постфактум або ретроспективного аналізу даних). Апріорі силовий аналіз проводиться до початку дослідження, і, як правило, використовується в оцінці вибірки достатнього розміру для досягнення адекватної потужності. Ретроспективний аналіз потужності проводиться після того, як дослідження було завершено, і використовує отримані вибірки і розміри ефекту, щоб визначити, що потужність була в дослідженні, припускаючи, що вплив розміру вибірки дорівнює впливу розміру популяції. У той час як програма перспективного аналізу в плануванні експерименту є загальноприйнятою, корисність ретроспективних методів є спірною.^[6] Падає спокусі використовувати статистичний аналіз зібраних даних для оцінки потужності приведе до неінформативних і помилкових цінностей. Зокрема, було показано^[7], що після постфактумної потужності в найпростішому вигляді є один-до-одного функція досягнутого n-значення. Це було розширено^[7], щоб показати, що вся постфактумна потужність аналізу хибує на «power approach paradox» (PAP), в якому дослідження з нульовим результатом, як вважають показує більше доказів того, що нульова гіпотеза не вірна, якщо р-значення менше, оскільки уявна потужність, виявляє реальний ефект який буде вище. Насправді, менша величина р розуміється належним чином, щоб зробити нульову гіпотезу, менш імовірно наявна.^{[джерело?]}

Додаток ред.

Фінансові установи, і науково-дослідницькі контрольні групи нерідко звертаються з проханнями щоб дослідник виконав аналіз потужності, наприклад, щоб визначив мінімальну кількість піддослідних тварин, необхідних для проведення експерименту, щоб було інформативним. У частотній статистиці, не потужні дослідження навряд чи дозволяють вибрати між гіпотезами на бажаному рівні значущості. У Байєсівській статистиці, перевірки гіпотез, які використовуються в класичному силовому аналізі не робляться. У Байєсівських рамках, його оновлення до переконання, використовуючи дані, отримані в даному дослідженні. В принципі, дослідження, яке буде вважатися недостатнім з точки зору перевірки гіпотез може використовуватися в таких процесах оновлення. Проте потужність, як і раніше, залишається корисною мірою того, наскільки даний експеримент розміру можна очікувати, щоб уточнити свої переконання. Дослідження малої потужності навряд чи призведе до більших змін у переконаннях.

Приклад ред.

Нижче наведено приклад, який показує, як обчислюється потужність для рандомізованого експерименту: припустимо, що мета експерименту — вивчення впливу лікування на деяку кількість, і порівняння об'єктів дослідження, вимірюючи кількість до і після лікування, аналіз даних за допомогою парного T-тесту. Нехай $\mathrm {A} \iota$ і $\mathrm {B} \iota$ позначимо попередньою обробкою і пост-обробкою з цього і відповідно. Можливий ефект від лікування повинен бути видний у відмінностях $D_{i}=B_{i}-A_{i}$ , яке передбачається незалежно розподіленим, все з тим же очікуваним значенням і дисперсією.

Ефект лікування може бути проаналізований за допомогою одностороннього T-тесту. Нульова гіпотеза щодо відсутності ефект буде той, що означає різницю і дорівнюватиме нулю, тобто $H_{0}:\mu _{D}=0$ . У цьому випадку альтернативна гіпотеза стверджує, позитивний ефект, відповідний $H_{1}:\mu _{D}>0$ . В тестової статистиці є:

T_{n}={\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}

де n — розмір вибірки, ${\bar {D}}_{n}={\frac {1}{n}}\sum _{i=1}^{n}D_{i}$ і ${\hat {\sigma }}_{D}/{\sqrt {n}}$ — це стандартна помилка. Розподіл тестової статистики при нульовій гіпотезі слід T-розподілу Стьюдента. Крім того, припустимо, що нульова гіпотеза буде відхилена при рівні значущості в $\alpha =0.05$ . Оскільки n є великим, можна наблизити до T-розподілу нормальним законом розподілу і обчислити критичне значення за допомогою квантильної функції $\Phi$ нормального розподілу. Виходить, що нульова гіпотеза буде відкинута, якщо

T_{n}>1.64

Тепер припустимо, що альтернативна гіпотеза істинна і $\mu _{D}=\theta$ . Тоді потужність

{\begin{array}{ccl}B(\theta )&=&P(T_{n}>1.64|\mu _{D}=\theta )\\&=&P({\frac {{\bar {D}}_{n}-0}{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1.64|\mu _{D}=\theta )\\&=&P\left({\frac {{\bar {D}}_{n}-\theta +\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1.64\right|\mu _{D}=\theta )\\&=&P\left({\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}>1.64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}\right|\mu _{D}=\theta )\\&=&1-P\left({\frac {{\bar {D}}_{n}-\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}<1.64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}}\right|\mu _{D}=\theta )\\\end{array}}

Для великих n, $T_{n}$ приблизно слідує стандартному нормальному розподілу, коли альтернативна гіпотеза, приблизна потужність можна розрахувати як

B(\theta )\approx 1-\Phi (1.64-{\frac {\theta }{{\hat {\sigma }}_{D}/{\sqrt {n}}}})

Згідно з цією формулою, сила зростає із збільшенням значення параметра $\theta$ . Для конкретного значення $\theta$ вища потужність може бути досягнута шляхом збільшення обсягу вибірки n.

Неможливо гарантувати досить велику потужність для всіх значень $\theta$ , бо $\theta$ може бути дуже близько до 0. Мінімальному значенню потужності (межею) дорівнює розміру тесту, $\alpha$ , у цьому прикладі 0.05. Втім, не важливо розрізняти $\theta =0$ і невеликі позитивні значення. Бажано мати достатню потужність, скажімо, не менше 0,90, для виявлення значень $\theta >1$ необхідний розмір вибірки можна розрахувати приблизно:

B(1)\approx 1-\Phi (1.64-{\sqrt {n}}/{\hat {\sigma }}_{D})>0{.}90

з чого слідує, що

\Phi (1.64-{\sqrt {n}}/{\hat {\sigma }}_{D})<0.10

Звідси

{\displaystyle {\sqrt {n}}/{\hat {\sigma }}_{D}>1.64-z_{0.10}=1.64+1.28\approx 2.92}

або

{\displaystyle n>8.56\,{\hat {\sigma }}_{D}^{2},}

де $z_{0.10}$ стандартна нормальна квантильна; див. пробіт-регресія для пояснення взаємозв'язку між $\Phi$ і Z-значеннями.

Розширення ред.

Байєсовська потужність ред.

В частотному висновувані параметри, як передбачається, мають певне значення, що малоймовірно, щоб бути правдою. Цю проблему можна вирішити, припустивши, що параметр має розподіл. Результуюча сила іноді називають Байєсівської потужністю, яка зазвичай використовується в клінічних випробуваннях.

Прогностична ймовірність успіху ред.

Як у частотній потужність так і в Байєсовській потужності використовують статистичну значимість як критерій успіху. Однак статистичної значимості часто не досить, щоб визначити успіх. Для вирішення цієї проблеми потужності концепція може бути розширена до концепції прогностичної ймовірності успіху (ПЙУ). Успіх критерії для ПЙУ не обмежується статистичною значущістю і широко використовується в клінічних випробуваннях.

Програмне забезпечення для потужності та розрахунок обсягу вибірки ред.

Численні вільні та/або відкриті програми доступні для виконання потужності і розрахунку розміру вибірки. Вони включають

G*Power (http://www.gpower.hhu.de/ [Архівовано 10 грудня 2016 у Wayback Machine.])
powerandsamplesize.com [Архівовано 27 березня 2022 у Wayback Machine.] Вільне і відкрите джерело онлайн калькулятора
PS Power and Sample Size^[en]
R package pwr [Архівовано 28 листопада 2016 у Wayback Machine.]
Russ Lenth's power and sample-size page [Архівовано 21 листопада 2016 у Wayback Machine.]
WebPower Free online statistical power analysis (http://webpower.psychstat.org)
SampSize app for Android and iOS iPhone and iPad (https://www.epigenesys.org.uk/portfolio/sampsize/ [Архівовано 13 березня 2017 у Wayback Machine.])

Див. також ред.

Розмір вибірки

Примітки ред.

↑ Alex Reinhart. Statistical power and underpowered statistics. statisticsdonewrong.com (англ.). Архів оригіналу за 20 січня 2017. Процитовано 10 грудня 2016.
↑ Everitt, 2002, p. 321.
↑ Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.
↑ Ellis, Paul (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge University Press. с. 52. ISBN 978-0521142465.
↑ Tsang, R.; Colley, L.; Lynd, L. D. (2009). Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. Journal of Clinical Epidemiology. 62 (6): 609—616. doi:10.1016/j.jclinepi.2008.08.005. PMID 19013761.
↑ Thomas, L. (1997) Retrospective power analysis [Архівовано 2 липня 2007 у Wayback Machine.].
↑ ^а ^б Hoenig and Heisey (2001)The Abuse of Power The American Statistician^[en] 55(1):19-24 [1]

Посилання ред.

Everitt, Brian S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. ISBN 0-521-81099-X.
Cohen, J. (1988). Statistical Power Analysis for the Behavioral Sciences (вид. 2-ге). ISBN 0-8058-0283-5.
Aberson, C. L. (2010). Applied Power Analysis for the Behavioral Science. ISBN 1-84872-835-2.
StatQuest: P-value pitfalls and power calculations на YouTube

[1] Alex Reinhart. Statistical power and underpowered statistics. statisticsdonewrong.com (англ.). Архів оригіналу за 20 січня 2017. Процитовано 10 грудня 2016.

[FOOTNOTEEveritt2002p._321-2] Everitt, 2002, p. 321.

[3] Ellis, Paul D. (2010). The Essential Guide to Effect Sizes: An Introduction to Statistical Power, Meta-Analysis and the Interpretation of Research Results. United Kingdom: Cambridge University Press.

[4] Ellis, Paul (2010). The Essential Guide to Effect Sizes: Statistical Power, Meta-Analysis, and the Interpretation of Research Results. Cambridge University Press. с. 52. ISBN 978-0521142465.

[5] Tsang, R.; Colley, L.; Lynd, L. D. (2009). Inadequate statistical power to detect clinically significant differences in adverse event rates in randomized controlled trials. Journal of Clinical Epidemiology. 62 (6): 609—616. doi:10.1016/j.jclinepi.2008.08.005. PMID 19013761.

[6] Thomas, L. (1997) Retrospective power analysis [Архівовано 2 липня 2007 у Wayback Machine.].

[HH1-7] а ^б Hoenig and Heisey (2001)The Abuse of Power The American Statistician^[en] 55(1):19-24 [1]

[1]

[2]

[3]

[4]

[5]

[6]

[7]