Відстань Кука: відмінності між версіями

[неперевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Немає опису редагування
Рядок 1:
У [[Статистика|статистиці]], '''Відстань Кука''' є загальноприйнятою оцінкою впливу спостереження під час застосування [[Метод найменших квадратів|методу найменших квадратів]] у [[Регресійний аналіз|регресійному аналізі]].<ref>{{Cite book|title=A Second Course in Statistics: Regression Analysis|last=Mendenhall|first=William|last2=Sincich|first2=Terry|year=1996|publisher=Prentice-Hall|edition=5th|location=Upper Saddle River, NJ|page=422|isbn=0-13-396821-9|quote=A measure of overall influence an outlying observation has on the estimated <math>\beta</math> coefficients was proposed by R. D. Cook (1979). Cook's distance, ''D<sub>i</sub>'', is calculated...}}</ref> На практиці, при застосуванні [[Метод найменших квадратів|методу найменших квадратів]], відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика [[Р. Денніса Кука]], який у 1977 році запропонував дану концепцію.<ref>{{Citecite document}}</ref><ref>{{Cite document}}</ref>journal
| last=Cook |first=R. Dennis
| title=Detection of Influential Observations in Linear Regression
| journal=Technometrics
| volume=19 |issue=1 |pages= 15–18
|date=February 1977
| publisher=American Statistical Association
| mr=0436478
| doi=10.2307/1268249
| jstor=1268249
}}</ref><ref>{{cite journal
| last=Cook |first=R. Dennis
| title=Influential Observations in Linear Regression
| journal=Journal of the American Statistical Association
| volume=74 |issue=365 |pages=169–174
|date=March 1979
| publisher=American Statistical Association
| mr=0529533
| doi=10.2307/2286747
| jstor=2286747
}}</ref>
 
== Означення ==
 
Дані з великими значеннями залишків ([[викиди]]) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз .
 
Рядок 22 ⟶ 43:
 
== Визначення спостережень із великим впливом ==
 
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі <math>D_i>1</math> ввжати спостереження впливовим.<ref>{{Cite book|url=https://books.google.com/books?id=MVSqAAAAIAAJ|title=Residuals and Influence in Regression|last=Cook|first=R. Dennis|last2=Weisberg|first2=Sanford|authorlink2=Sanford Weisberg|year=1982|publisher=Chapman & Hall|location=New York, NY|isbn=0-412-24280-X}}</ref> Також, іноді використовується припущення, що слід враховувати <math>D_i>4/n</math>, де <math>n</math> - кількість спостережень.<ref>{{Cite book|title=Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases|last=Bollen|first=Kenneth A.|last2=Jackman|first2=Robert W.|year=1990|editor-last=Fox|editor-first=John|editor2-last=Long|editor2-first=J. Scott|editor2-link=J. Scott Long|publisher=Sage|location=Newbury Park, CA|pages=257–91|isbn=0-8039-3366-5}}</ref>
 
== Інтерпретація ==
 
Зокрема, <math>D_i</math> можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.{{Прояснити}} Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.
 
== Джерела ==
== Посилання ==
{{reflist|30em}}
 
{{Ізольована стаття|сирота1}}
== Література ==
* {{cite book |first=Anthony |last=Atkinson |first2=Marco |last2=Riani |chapter=Deletion Diagnostics |title=Robust Diagnostics and Regression Analysis |location=New York |publisher=Springer |year=2000 |isbn=0-387-95017-6 |pages=22–25 |chapterurl=https://books.google.com/books?id=X0dPBOJ_L4UC&pg=PA22 }}
* {{cite book |last=Heiberger |first=Richard M. |first2=Burt |last2=Holland |chapter=Case Statistics |title=Statistical Analysis and Data Display |location= |publisher=Springer Science & Business Media |year=2013 |isbn=9781475742848 |pages=312–27 |chapterurl=https://books.google.com/books?id=co3gBwAAQBAJ&pg=PA312 }}
* {{cite book |first=William S. |last=Krasker |first2=Edwin |last2=Kuh |authorlink2= |first3=Roy E. |last3=Welsch |chapter=Estimation for dirty data and flawed models |title=Handbook of Econometrics |volume=1 |location= |publisher=Elsevier |year=1983 |pages=651–698 |doi=10.1016/S1573-4412(83)01015-6 }}
*{{cite journal|last=Aguinis|first=Herman |last2=Gottfredson|first2=Ryan K. |last3=Joo|first3=Harry|year=2013 |title=Best-Practice Recommendations for Defining Identifying and Handling Outliers |url=https://www.researchgate.net/profile/Herman_Aguinis/publication/258174106_Best-Practice_Recommendations_for_Defining_Identifying_and_Handling_Outliers/links/004635276b1ff93ba8000000.pdf |journal=Organizational Research Methods |publisher=Sage |volume=16 |issue=2 |pages=270–301}}
 
 
[[Категорія:Регресійний аналіз]]
[[Категорія:Описова статистика]]