Відстань Кука: відмінності між версіями

[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Bluelink 2 books for Перевірність (20220301sim)) #IABot (v2.0.8.6) (GreenC bot
Виправлено джерел: 5; позначено як недійсні: 0.) #IABot (v2.0.8.8
Рядок 29:
де <math>\boldsymbol{\epsilon} \sim \mathcal{N}\left( 0, \sigma^{2} \mathbf{I} \right)</math> — [[Похибки та залишки|похибки]] регресії, <math>\boldsymbol{\beta} = \left[ \beta_{0} \, \beta_{1} \dots \beta_{p-1} \right]^{\mathsf{T}}</math> — параметри регресії, <math>\mathbf{X}</math> — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів  має представлення <math>\mathbf{b} = \left( \mathbf{X}^{\mathsf{T}} \mathbf{X} \right)^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y}</math>, а отже, відповідно, прогнозовані значення для <math>\mathbf{y}</math> обчислюються за формулою:
: <math>\mathbf{\hat{y}} = \mathbf{X} \mathbf{b} = \mathbf{X} \left( \mathbf{X}^{\mathsf{T}} \mathbf{X} \right)^{-1} \mathbf{X}^{\mathsf{T}} \mathbf{y} = \mathbf{H} \mathbf{y}</math>
де <math>\mathbf{H} \equiv \mathbf{X} ( \mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}}</math>— [[проекційна матриця]]. Причому <math>i</math>-тий діагональний елемент матриці <math>\mathbf{H} \,</math>, що обчислюється як <math>h_{i} \equiv \mathbf{x}_i^{\mathsf{T}} ( \mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{x}_{i}</math>,<ref>{{Cite book|url=https://books.google.com/books?id=QyIW8WUIyzcC&pg=PA21|title=Econometrics|last=Hayashi|first=Fumio|year=2000|publisher=Princeton University Press|pages=21–23|accessdate=24 грудня 2017|archive-date=28 травня 2016|archive-url=https://web.archive.org/web/20160528200345/https://books.google.com/books?id=QyIW8WUIyzcC&pg=PA21}}</ref> називається важелем <math>i</math>-го спостереження. Аналогічно, <math>i</math>-тий елемент вектора залишків має вигляд <math>\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}} = \left( \mathbf{I} - \mathbf{H} \right) \mathbf{y}</math> і позначається як <math>e_{i}</math>.
 
Відстань Кука <math>D_i</math> спостереження <math>i \; (\forall i = 1, \dots, n)</math> визначається як сума всіх змін у регресійній моделі, у разі видалення <math>i</math>-го спостереження
Рядок 44:
== Визначення спостережень із великим впливом ==
 
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі <math>D_i>1</math> ввжати спостереження впливовим.<ref>{{Cite book|url=https://books.google.com/books?id=MVSqAAAAIAAJ|title=Residuals and Influence in Regression|last=Cook|first=R. Dennis|last2=Weisberg|first2=Sanford|authorlink2=|year=1982|publisher=Chapman & Hall|location=New York, NY|isbn=0-412-24280-X|accessdate=24 грудня 2017|archive-date=26 квітня 2016|archive-url=https://web.archive.org/web/20160426175940/https://books.google.com/books?id=MVSqAAAAIAAJ}}</ref> Також, іноді використовується припущення, що слід враховувати <math>D_i>4/n</math>, де <math>n</math> - кількість спостережень.<ref>{{Cite book|title=Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases|last=Bollen|first=Kenneth A.|last2=Jackman|first2=Robert W.|year=1990|editor-last=Fox|editor-first=John|editor2-last=Long|editor2-first=J. Scott|editor2-link=J. Scott Long|publisher=Sage|location=Newbury Park, CA|pages=257–91|isbn=0-8039-3366-5}}</ref>
 
== Інтерпретація ==
Рядок 54:
 
== Література ==
* {{cite book |first=Anthony |last=Atkinson |first2=Marco |last2=Riani |chapter=Deletion Diagnostics |title=Robust Diagnostics and Regression Analysis |location=New York |publisher=Springer |year=2000 |isbn=0-387-95017-6 |pages=22–25 |chapterurl=https://books.google.com/books?id=X0dPBOJ_L4UC&pg=PA22 |accessdate=11 січня 2018 |archive-date=2 травня 2016 |archive-url=https://web.archive.org/web/20160502130142/https://books.google.com/books?id=X0dPBOJ_L4UC&pg=PA22 }}
* {{cite book |last=Heiberger |first=Richard M. |first2=Burt |last2=Holland |chapter=Case Statistics |title=Statistical Analysis and Data Display |location= |publisher=Springer Science & Business Media |year=2013 |isbn=9781475742848 |pages=312–27 |chapterurl=https://books.google.com/books?id=co3gBwAAQBAJ&pg=PA312 |accessdate=11 січня 2018 |archive-date=6 травня 2016 |archive-url=https://web.archive.org/web/20160506115942/https://books.google.com/books?id=co3gBwAAQBAJ&pg=PA312 }}
* {{cite book |first=William S. |last=Krasker |first2=Edwin |last2=Kuh |authorlink2= |first3=Roy E. |last3=Welsch |chapter=Estimation for dirty data and flawed models |title=Handbook of Econometrics |volume=1 |location= |publisher=Elsevier |year=1983 |pages=651–698 |doi=10.1016/S1573-4412(83)01015-6 }}
*{{cite journal |last=Aguinis |first=Herman |last2=Gottfredson |first2=Ryan K. |last3=Joo |first3=Harry |year=2013 |title=Best-Practice Recommendations for Defining Identifying and Handling Outliers |url=https://www.researchgate.net/profile/Herman_Aguinis/publication/258174106_Best-Practice_Recommendations_for_Defining_Identifying_and_Handling_Outliers/links/004635276b1ff93ba8000000.pdf |journal=Organizational Research Methods |publisher=Sage |volume=16 |issue=2 |pages=270–301 |accessdate=11 січня 2018 |archive-date=12 січня 2018 |archive-url=https://web.archive.org/web/20180112100825/https://www.researchgate.net/profile/Herman_Aguinis/publication/258174106_Best-Practice_Recommendations_for_Defining_Identifying_and_Handling_Outliers/links/004635276b1ff93ba8000000.pdf }}
 
[[Категорія:Діагностика регресійних моделей]]