Складано-ножева перевибірка: відмінності між версіями

[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Немає опису редагування
Рядок 1:
Складано-ножева перевибірка або метод складеного ножа ({{Lang-en|jackknife}})&nbsp;— один із методів [[Ресемплінг|ресемплінгу]] (лінійне наближення [[Статистичний бутстреп|статистичного бутстрепу]]), який використовується для оцінки похибки в [[Статистичне виведення|статистичному виведенні]]. Спосіб полягає в наступному: для кожного елементу обчислюється середнє значення вибірки без урахування даного елементу, а потім&nbsp;— середнє всіх таких значень. Для вибірки з n елементів оцінка розраховується шляхом обчислення середнього значення решти n-1 елементів<ref>{{Cite book|title=Прикладная статистика|last=Орлов А.И.|first=|year=2004|publisher=Издательство «Экзамен»|location=|pages=|language=російська|isbn=}}</ref>.
 
Один з перших алгоритмів, що був запропонований М. Кенуєм в 1949 р., полягав в тому, щоби послідовно та багаторазово виключати з наявної вибірки, яка налічує n елементів, по одному її члену та обробляти варіаційний ряд з решти (n - 1) елементів. Середнє значення, [[Дисперсія випадкової величини|дисперсія]] або медіана будуть при цьому “блукати” і тоді можна проаналізувати інформацію про кожний акт зміщення, побудувати розподіл вибіркової оцінки шуканого параметра та уточнити його властивості. Дж. Тьюкі активно удосконалив цей метод, та назвав його "jackknife{{ref-en}}" (складений ніж), й використав для оцінки [[Дисперсія випадкової величини|дисперсії]] сукупності, що вивчається та перевірки нульової гіпотези про те, що розподіл деякої статистики є симетричним відносно заданої точки.<ref>{{Cite book|title=Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013|last=В.К.Шитиков, Г.С.Розенберг|first=|year=2013|publisher=Издательство «Кассандра»|location=г. Тольятти|pages=15-17|language=російська|isbn=}}</ref>
 
Алгоритм
== Оцінка ==
Оціночні параметри можуть бути знайдені як середнє значення елементів выбірки без i-го елемента (назвемо їх <math>{\bar {x}}_{i}</math>).
 
Є вибірка X з 6 елементів {3.12; 0; 1.57; 19.67; 0.22; 2.2} зі значеннями середнього арифметичного x = 4.46 та стандартного відхилення s = 7.54.
<math>{\displaystyle {\bar {x}}_{i}={\frac {1}{n-1}}\sum _{j\neq i}^{n}x_{j}}</math>
 
Традиційні параметричні методи дозволяють оцінити точність оцінки <math>\bar{x}</math> або
== Дисперсійна оцінка ==
Оцінка дисперсії параметрів може бути обчислена за формулою: де <math>{\bar {x}}_{i}</math>це оціночні параметри, а <br/> <math>{\displaystyle {\bar {x}}_{\mathrm {(.)} }={\frac {1}{n}}\sum _{i}^{n}{\bar {x}}_{i}}</math>&nbsp;— оцінка що базується на всіх елементах.
 
похибку середнього:
Іншими словами, оцінка дисперсії це середнє арифметичне квадратів різности середнього арифметичного всіх елементів и даного.
 
<math>s_m=s/\sqrt{n}=\left [ \frac{1}{n(n-1)}\sum_{i=1}^n(x_i-\bar{x})^2\right ]^\tfrac{1}{2}=3.08</math>
== Оцінка та корекція зміщення ==
Даний метод може бути використаний для оцінки похибки параметра відносно всієї вибірки. Введемо <math>{\displaystyle {\hat {\theta }}}</math>, як оцінку параметру на основі всіх даних:
 
Ту ж саму похибку середнього можна вирахувати іншим способом,
<math>\hat{\theta} = \frac{\operatorname {Var}_{{\mathrm {(jackknife)}}}} {n-1}</math>
 
відкидаючи в вихідній вибірці по одному члену, формуючи шість псевдовиборок по 5
<math>{\hat {\theta }}_{{\mathrm {(.)}}}={\frac {1}{n}}\sum _{{i=1}}^{n}{\hat {\theta }}_{{\mathrm {(i)}}}</math>
 
елементів в кожній. З цих даних, в яких по черзі була виключена i-а точка,
<math>{\displaystyle {\widehat {\text{Bias}}}_{\mathrm {(\theta )} }=(n-1)({\hat {\theta }}_{\mathrm {(.)} }-{\hat {\theta }})}</math>
 
отримуємо ряд вибіркових середніх <math>\tilde{x}_{(i)}=\{4.73; 5.36; 5.04; 1.42; 5.31; 4.92\}</math> Після повного перебору всіх можливих варіантів середнє арифметичне з середніх <math>\bar{x}_{(\centerdot)}</math> буде відповідати вихідному середньому x = 4.46, що
 
можна довести алгебраїчно.
 
З вищезазначеного алгоритму можна зробити висновок складеного ножа не має сенсу, коли необхідно знайти
 
можливе зміщення міри положення, але воно потенційно дуже корисно в багатьох
 
інших випадках оцінки параметрів розподілу. Оскільки кожна з сформованих
 
псеводвиборок також є підмножиною з тієї ж генеральної сукупності, то
 
оцінка для похибки середнього, обчислена методом складеного ножа, дорівнює:
 
<math>\sigma_{jack}=\left [\frac{n}{n-1}\sum_{i=1}^n(\tilde{x}_{(i)}-\bar{x}_{(\cdot)})^2\right ]^{1/2}=3.017</math><ref>{{Cite book|title=Нетрадиционные методы многомерного статистического анализа|last=Эфрон Б.|first=|year=1988|publisher="Финансы и статистика"|location=Москва|pages=50-51|language=росыйська|isbn=}}</ref>
 
Таким чином можна зробити висновок, що хоч метод складеного ножа є недоцільним, та він дозволяє відійти від традиційної параметричної теорії, що бере до уваги малий набір стандартних моделей, та не допускає узагальнень на інші параметри, крім середнього <math>\bar{x}</math>, такі як медіана, стандартна похибка, ексцес, асиметрія тощо.
 
Популярність методу "складеного ножа" з його неефективним
 
обчислювальним підходом при аналізі вибіркових оцінок параметрів істотно
 
знизилася в ході розвитку ідей бутстрепа, коли з'явилася можливість гнучкого налаштування та використання алгоритмів самоорганізації. Разом з тим, методи складано-ножевої перевибірки
 
знайшли в екології широке застосування для прогнозування числа "невидимих" рідкісних
 
видів і екстраполяції видового багатства угруповань
 
Ідеї ​​складного ножа отримали подальший розвиток на загальний випадок
 
емпіричного оцінювання параметрів будь-яких моделей регресії або розпізнавання,
 
побудованих по прецедентах, в рамках процедури крос-перевірки
 
[[Категорія:Алгоритми]]