Відстань Кука

У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.^[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Ральфа Денніса Кука^[en], який у 1977 році запропонував дану концепцію.^[2]^[3]

Означення

Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.

Для алгебраїчного представлення спочатку визначимо:

{\underset {n\times 1}{\mathbf {y} }}={\underset {n\times p}{\mathbf {X} }}\quad {\underset {p\times 1}{\boldsymbol {\beta }}}\quad +\quad {\underset {n\times 1}{\boldsymbol {\epsilon }}}

де ${\boldsymbol {\epsilon }}\sim {\mathcal {N}}\left(0,\sigma ^{2}\mathbf {I} \right)$ — похибки регресії, ${\boldsymbol {\beta }}=\left[\beta _{0}\,\beta _{1}\dots \beta _{p-1}\right]^{\mathsf {T}}$ — параметри регресії, $\mathbf {X}$ — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення $\mathbf {b} =\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y}$ , а отже, відповідно, прогнозовані значення для $\mathbf {y}$ обчислюються за формулою:

\mathbf {\hat {y}} =\mathbf {X} \mathbf {b} =\mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {y} =\mathbf {H} \mathbf {y}

де $\mathbf {H} \equiv \mathbf {X} (\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\mathsf {T}}$ — проєкційна матриця. Причому $i$ -тий діагональний елемент матриці $\mathbf {H} \,$ , що обчислюється як $h_{i}\equiv \mathbf {x} _{i}^{\mathsf {T}}(\mathbf {X} ^{\mathsf {T}}\mathbf {X} )^{-1}\mathbf {x} _{i}$ ,^[4] називається важелем $i$ -го спостереження. Аналогічно, $i$ -тий елемент вектора залишків має вигляд $\mathbf {e} =\mathbf {y} -\mathbf {\hat {y}} =\left(\mathbf {I} -\mathbf {H} \right)\mathbf {y}$ і позначається як $e_{i}$ .

Відстань Кука $D_{i}$ спостереження $i\;(\forall i=1,\dots ,n)$ визначається як сума всіх змін у регресійній моделі, у разі видалення $i$ -го спостереження

D_{i}={\frac {\sum _{j=1}^{n}\left({\hat {y}}_{j}-{\hat {y}}_{j(i)}\right)^{2}}{ps^{2}}}

де ${\hat {y}}_{j(i)}$ — прогноз відгука, отриманий вилученням $i$ -го спостереження,

де $s^{2}\equiv \left(n-p\right)^{-1}\mathbf {e} ^{\top }\mathbf {e}$ — середньоквадратична похибка регресійної моделі.^[5]

Аналогічно, відстань Кука можна виразити через важелі

D_{i}={\frac {e_{i}^{2}}{s^{2}p}}\left[{\frac {h_{i}}{(1-h_{i})^{2}}}\right]

Визначення спостережень із великим впливом

Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі $D_{i}>1$ ввжати спостереження впливовим.^[6] Також, іноді використовується припущення, що слід враховувати $D_{i}>4/n$ , де $n$ - кількість спостережень.^[7]

Інтерпретація

Зокрема, $D_{i}$ можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.^{[прояснити]} Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.

Посилання

↑ Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN 0-13-396821-9. A measure of overall influence an outlying observation has on the estimated $\beta$ coefficients was proposed by R. D. Cook (1979). Cook's distance, D_i, is calculated...
↑ Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.
↑ Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.
↑ Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.
↑ Statistics 512: Applied Linear Models (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.
↑ Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X. Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.
↑ Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; Long, J. Scott (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN 0-8039-3366-5.

Література

Atkinson, Anthony; Riani, Marco (2000). Deletion Diagnostics. Robust Diagnostics and Regression Analysis. New York: Springer. с. 22—25. ISBN 0-387-95017-6. Архів оригіналу за 2 травня 2016. Процитовано 11 січня 2018.
Heiberger, Richard M.; Holland, Burt (2013). Case Statistics. Statistical Analysis and Data Display. Springer Science & Business Media. с. 312—27. ISBN 9781475742848. Архів оригіналу за 6 травня 2016. Процитовано 11 січня 2018.
Krasker, William S.; Kuh, Edwin; Welsch, Roy E. (1983). Estimation for dirty data and flawed models. Handbook of Econometrics. Т. 1. Elsevier. с. 651—698. doi:10.1016/S1573-4412(83)01015-6.
Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). Best-Practice Recommendations for Defining Identifying and Handling Outliers (PDF). Organizational Research Methods. Sage. 16 (2): 270—301. Архів оригіналу (PDF) за 12 січня 2018. Процитовано 11 січня 2018.

[1] Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN 0-13-396821-9. A measure of overall influence an outlying observation has on the estimated $\beta$ coefficients was proposed by R. D. Cook (1979). Cook's distance, D_i, is calculated...

[2] Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics. American Statistical Association. 19 (1): 15—18. doi:10.2307/1268249. JSTOR 1268249. MR 0436478.

[3] Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association. American Statistical Association. 74 (365): 169—174. doi:10.2307/2286747. JSTOR 2286747. MR 0529533.

[4] Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 21—23. Архів оригіналу за 28 травня 2016. Процитовано 24 грудня 2017.

[5] Statistics 512: Applied Linear Models (PDF). Purdue University. Архів оригіналу (PDF) за 30 листопада 2016. Процитовано 24 грудня 2017.

[6] Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X. Архів оригіналу за 26 квітня 2016. Процитовано 24 грудня 2017.

[7] Bollen, Kenneth A.; Jackman, Robert W. (1990). Fox, John; Long, J. Scott (ред.). Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257—91. ISBN 0-8039-3366-5.

[1]

[2]

[3]

[4]

[5]

[6]

[7]