Відстань Кука: відмінності між версіями

[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Рядок 1:
У [[Статистика|статистиці]], '''Відстань Кука''' є загальноприйнятою оцінкою впливу спостереження під час застосування [[Метод найменших квадратів|методу найменших квадратів]] у [[Регресійний аналіз|регресійному аналізі]].<ref>{{Cite book|title=A Second Course in Statistics: Regression Analysis|last=Mendenhall|first=William|last2=Sincich|first2=Terry|year=1996|publisher=Prentice-Hall|edition=5th|location=Upper Saddle River, NJ|page=422|isbn=0-13-396821-9|quote=A measure of overall influence an outlying observation has on the estimated <math>\beta</math> coefficients was proposed by R. D. Cook (1979). Cook's distance, ''D<sub>i</sub>'', is calculated...}}</ref> На практиці, при застосуванні [[Метод найменших квадратів|методу найменших квадратів]], відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика [[Р.Ральф Денніс Кук|Ральфа Денніса Кука]], який у [[1977]] році запропонував дану концепцію.<ref>{{cite journal
| last=Cook |first=R. Dennis
| title=Detection of Influential Observations in Linear Regression
Рядок 31:
де <math>\mathbf{H} \equiv \mathbf{X} ( \mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{X}^{\mathsf{T}}</math>— [[проекційна матриця]]. Причому <math>i</math>-тий діагональний елемент матриці <math>\mathbf{H} \,</math>, що обчислюється як <math>h_{i} \equiv \mathbf{x}_i^{\mathsf{T}} ( \mathbf{X}^{\mathsf{T}} \mathbf{X})^{-1} \mathbf{x}_{i}</math>,<ref>{{Cite book|url=https://books.google.com/books?id=QyIW8WUIyzcC&pg=PA21|title=Econometrics|last=Hayashi|first=Fumio|year=2000|publisher=Princeton University Press|pages=21–23}}</ref> називається важелем <math>i</math>-го спостереження. Аналогічно, <math>i</math>-тий елемент вектора залишків має вигляд <math>\mathbf{e} = \mathbf{y} - \mathbf{\hat{y}} = \left( \mathbf{I} - \mathbf{H} \right) \mathbf{y}</math> і позначається як <math>e_{i}</math>.
 
Відстань Кука <math>D_i</math> спостереження <math>i \; (\forall i = 1, \dots, n)</math> визначається як сума всіх змін у регресійній моделі, у разі видалення <math>i</math>- го спостереження
: <math>
D_i = \frac { \sum_{j=1}^n \left( \hat{y}_j - \hat{y}_{j(i)} \right)^2 } {p s^2}