Складано-ножева перевибірка: відмінності між версіями

[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
скасовано ОД та дослівний переклад http://www.ievbras.ru/ecostat/Kiril/Article/A32/Starb.pdf
Рядок 1:
'''Складано-ножева перевибірка або метод складеного ножа ({{Lang-en|jackknife}})'''&nbsp;— один із методів [[Ресемплінг|ресемплінгу]] (лінійне наближення [[Статистичний бутстреп|статистичного бутстрепу]]), який використовується для оцінки [[Похибка|похибки]] в [[Статистичне виведення|статистичному виведенні]]. Спосіб полягає в наступному: для кожного елементу обчислюється [[Середнє значення|середнє значення]] вибірки без урахування даного елементу, а потім&nbsp;— [[Середнє значення|середнє]]среднє всіх таких значень. Для вибірки зиз nN елементівэлементів оцінка розраховується шляхом обчислення [[Середнє значення|середнього значення]] решти nN-1 елементів.<ref name="one">{{Cite book|title=Прикладная статистика|last=Орлов А.И.|first=|year=2004|publisher=Издательство «Экзамен»|location=|pages=|language=російська|isbn=}}</ref>.
 
Цей метод розробив Морріс К. (1949—1956) з метою зменшення похибки оцінки окремого зразку. Джон Тьюкі&nbsp;у 1958 році розширив його можливості і запропонував назву «складений ніж», тому що його дія нагадує складений ніж&nbsp;— простий інструмент, за допомогою якого можна вирішити безліч різноманітних проблем, нехай й менш ефективно, ніж за допомогою призначених для цього засобів. Він може допомогти покращити оцінку в випадку коли дані розподілені не рівномірно.
Один з перших алгоритмів, що був запропонований М. Кенуєм в 1949 р., полягав в тому, щоби послідовно та багаторазово виключати з наявної вибірки, яка налічує n елементів, по одному її члену та обробляти [[Варіаційний ряд|варіаційний ряд]] з решти (n - 1) елементів. [[Середнє значення|Середнє значення]], [[Дисперсія випадкової величини|дисперсія]] або [[Медіана (статистика)|медіана]] будуть при цьому “блукати” і тоді можна проаналізувати інформацію про кожний акт зміщення, побудувати розподіл вибіркової оцінки шуканого параметра та уточнити його властивості. Дж. Т'юкі активно удосконалив цей метод, та назвав його "jackknife{{ref-en}}" (складений ніж), й використав для оцінки [[Дисперсія випадкової величини|дисперсії]] сукупності, що вивчається та перевірки [[Нульова гіпотеза|нульової гіпотези]] про те, що розподіл деякої статистики є симетричним відносно заданої точки.<ref name="two">{{Cite book|title=Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013|last=В.К.Шитиков, Г.С.Розенберг|first=|year=2013|publisher=Издательство «Кассандра»|location=г. Тольятти|pages=15-17|language=російська|isbn=}}</ref>
 
== Оцінка ==
==Алгоритм методу==
Оціночні параметри можуть бути знайдені як середнє значення елементів выбірки без i-го елемента (назвемо їх <math>{\bar {x}}_{i}</math>).
Дано вибірку X з 6 елементів {3.12; 0; 1.57; 19.67; 0.22; 2.2} зі значеннями [[Середнє арифметичне|середнього арифметичного]] x = 4.46 та [[Стандартне відхилення|стандартного відхилення]] s = 7.54.
Традиційні параметричні методи дозволяють визначити точність оцінки <math>\bar{x}</math> або [[Похибка|похибку]] [[Середнє значення|середнього]]:<br/> <math>s_m=s/\sqrt{n}=\left [ \frac{1}{n(n-1)}\sum_{i=1}^n(x_i-\bar{x})^2\right ]^\tfrac{1}{2}=3.08</math><br/>
Ту ж саму [[Похибка|похибку]] [[Середнє значення|середнього]] можна вирахувати іншим способом, відкидаючи в вихідній вибірці по одному члену, формуючи шість псевдовиборок по 5 елементів в кожній. З цих даних, в яких по черзі була виключена i-а точка, отримуємо ряд вибіркових [[Середнє значення|середніх]] <math>\tilde{x}_{(i)}=\{4.73; 5.36; 5.04; 1.42; 5.31; 4.92\}</math> Після повного перебору всіх можливих варіантів [[Середнє арифметичне|середнє арифметичне]] з середніх <math>\bar{x}_{(\centerdot)}</math> буде відповідати вихідному середньому x = 4.46, що можна довести алгебраїчно.<ref name="three">{{Cite book|title=Нетрадиционные методы многомерного статистического анализа|last=Эфрон Б.|first=|year=1988|publisher="Финансы и статистика"|location=Москва|pages=50-51|language=російська|isbn=}}</ref>
 
<math>{\displaystyle {\bar {x}}_{i}={\frac {1}{n-1}}\sum _{j\neq i}^{n}x_{j}}</math>
==Актуальність методу==
З вищезазначеного алгоритму можна зробити висновок, що метод складеного ножа не має сенсу, коли необхідно знайти можливе зміщення міри положення, але воно потенційно дуже корисно в багатьох інших випадках оцінки параметрів розподілу. Оскільки кожна з сформованих псеводвиборок також є підмножиною з тієї ж генеральної сукупності, то оцінка для [[Похибка|похибки]] [[Середнє значення|середнього]], обчислена методом складеного ножа, дорівнює:<br/>
<math>\sigma_{jack}=\left [\frac{n}{n-1}\sum_{i=1}^n(\tilde{x}_{(i)}-\bar{x}_{(\cdot)})^2\right ]^{1/2}=3.017</math><br/>
Таким чином, можна зробити висновок, що хоч метод складеного ножа є недоцільним, та він дозволяє відійти від традиційної параметричної теорії, що бере до уваги малий набір стандартних моделей, та не допускає узагальнень на інші параметри, крім середнього <math>\bar{x}</math>, такі як [[Медіана (статистика)|медіана]], [[Стандартне відхилення|стандартна похибка]], [[Коефіцієнт ексцесу|ексцес]], [[Асиметрія|асиметрія]] тощо.<ref name="two">{{Cite book|title=Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013|last=В.К.Шитиков, Г.С.Розенберг|first=|year=2013|publisher=Издательство «Кассандра»|location=г. Тольятти|pages=15-17|language=російська|isbn=}}</ref>
 
== Дисперсійна оцінка ==
==Подальше застосування==
Оцінка дисперсії параметрів може бути обчислена за формулою: де <math>{\bar {x}}_{i}</math>це оціночні параметри, а <br/> <math>{\displaystyle {\bar {x}}_{\mathrm {(.)} }={\frac {1}{n}}\sum _{i}^{n}{\bar {x}}_{i}}</math>&nbsp;— оцінка що базується на всіх елементах.
Використання '''методу "складеного ножа"'''з його занадто витратним обчислювальним підходом при аналізі вибіркових оцінок параметрів істотно зменшилось з розвитком ідей [[Статистичний бутстреп|бутстрепа]], коли з'явилася можливість гнучкого налаштування та використання алгоритмів самоорганізації. Разом з тим, методи складано-ножевої перевибірки знайшли в екології широке застосування для прогнозування числа "невидимих" рідкісних видів і екстраполяції видового багатства угруповань. Ідеї ​​складного ножа отримали подальший розвиток на загальний випадок [[Емпірика|емпіричного]] оцінювання параметрів будь-яких моделей [[Регресія (статистика)|регресії]] або розпізнавання, побудованих по прецедентах, в рамках процедури крос-перевірки.<ref name="two">{{Cite book|title=Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013|last=В.К.Шитиков, Г.С.Розенберг|first=|year=2013|publisher=Издательство «Кассандра»|location=г. Тольятти|pages=15-17|language=російська|isbn=}}</ref>
 
Іншими словами, оцінка дисперсії це середнє арифметичне квадратів різности середнього арифметичного всіх елементів и даного.
== Примітки ==
{{примітки}}
 
== Оцінка та корекція зміщення ==
==Література==
Даний метод може бути використаний для оцінки похибки параметра відносно всієї вибірки. Введемо <math>{\displaystyle {\hat {\theta }}}</math>, як оцінку параметру на основі всіх даних:
 
<math>\hat{\theta} = \frac{\operatorname {Var}_{{\mathrm {(jackknife)}}}} {n-1}</math>
*Орлов А.И.(2004). Прикладная статистика (російська). Издательство «Экзамен».
*В.К.Шитиков, Г.С.Розенберг (2013). Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013 (російська). Тольятти: Издательство «Кассандра».
*Эфрон Б. (1988). Нетрадиционные методы многомерного статистического анализа (російська). М:"Финансы и статистика"
 
<math>{\hat {\theta }}_{{\mathrm {(.)}}}={\frac {1}{n}}\sum _{{i=1}}^{n}{\hat {\theta }}_{{\mathrm {(i)}}}</math>
==Посилання==
[https://ru.wikipedia.org/wiki/Складной_нож_(статистика) Складной нож (статистика)]
 
<math>{\displaystyle {\widehat {\text{Bias}}}_{\mathrm {(\theta )} }=(n-1)({\hat {\theta }}_{\mathrm {(.)} }-{\hat {\theta }})}</math>
 
== Література ==
 
* Орлов А. И.(2004). Прикладная статистика (російська). Издательство «Экзамен».
* В.&nbsp;К.&nbsp;Шитиков, Г.&nbsp;С.&nbsp;Розенберг (2013). Рандомизация и бутстреп. Статистический анализ в биологии и экологии с использованием R. Исправленная и дополненная интернет-версия от 15.11.2013 (російська). Тольятти: Издательство «Кассандра».
* Эфрон Б. (1988). Нетрадиционные методы многомерного статистического анализа (російська). М:" «Финансы и статистика"»
 
[[Категорія:Алгоритми]]
Рядок 34 ⟶ 32:
[[Категорія:Статистика]]
[[Категорія:Статистичне виведення]]
[[Категорія:Економетрика]]