Достатня статистика

Достатня статистика для параметра $\theta \in \Theta ,\;$ що визначає деяке сімейство $F_{\theta }$ розподілів ймовірності — статистика $T=\mathrm {T} (X),\;$ така, що умовна імовірність вибірки $X=X_{1},X_{2},\ldots ,X_{n}\;$ при даному значенні $\mathrm {T} (X)\;$ не залежить від параметра $\theta \;.$ Тобто виконується рівність:

\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t,\theta )=\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t),\,

Достатня статистика $\mathrm {T} (X),\;$ таким чином містить у собі всю інформацію про параметр $\theta \;,$ що може бути одержана на основі вибірки X. Тому поняття достатньої статистики широко використовується в теорії оцінки параметрів.

Найпростішою достатньою статистикою є сама вибірка $\mathrm {T} (X)=X,\;$ проте справді важливими є випадки коли величина достатньої статистики значно менша від величини вибірки, зокрема коли достатня статистика виражається лише кількома числами.

Достатня статистика $S=\mathrm {S} (X)\;$ називається мінімальною достатньою, якщо для кожної достатньої статистики T існує невипадкова вимірна функція g, що $S(X)=g(T(X))$ майже напевно.

Теорема факторизації

Теорема факторизації дає спосіб практичного знаходження достатньої статистики для розподілу ймовірності. Вона дає достатні і необхідні умови достатності статистики і твердження теореми іноді використовується як означення.

Нехай $\mathrm {T} (X)\;$ — деяка статистика, а $f_{\theta }(x)$ — умовна функція щільності чи функція ймовірностей (залежно від виду розподілу) для вектора спостережень X. Тоді $\mathrm {T} (X)\;$ є достатньою статистикою для параметра $\theta \in \Theta ,\;$ якщо і тільки якщо існують такі вимірні функції h і g, що можна записати:

f_{\theta }(x)=h(x)\,g(\theta ,\mathrm {T} (x))\,\!

Доведення

Нижче подано доведення для часткового випадку коли розподіл ймовірностей є дискретним. Тоді $f_{\theta }(x)=\mathbb {P} (X=x|\theta )$ — функція ймовірностей. Нехай дана функція має факторизацію, як у твердженні теореми і $\mathrm {T} (x)=t.$

Тоді маємо:

{\begin{aligned}\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )&={\frac {\mathbb {P} (X=x|\theta )}{\mathbb {P} (\mathrm {T} (X)=t|\theta )}}&={\frac {h(x)\,g(\theta ,\mathrm {T} (x))}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,\mathrm {T} (x))}}\\&={\frac {h(x)\,g(\theta ,t)}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,t)}}&={\frac {h(x)\,}{\sum _{x:\mathrm {T} (x)=t}h(x)\,}}.\end{aligned}}

Звідси бачимо, що умовна ймовірність вектора X при заданому значенні статистики $\mathrm {T} (X)\;$ не залежить від параметра і відповідно $\mathrm {T} (X)\;$ — достатня статистика.

Навпаки можемо записати:

\mathbb {P} (X=x|\theta )=\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )\cdot \mathbb {P} (\mathrm {T} (X)=t|\theta ).\,

З попереднього маємо, що перший множник правої сторони не залежить від параметра $\theta \;$ і його можна взяти за функцію h(x) з твердження теореми. Другий множник є функцією від $\theta \;$ і $\mathrm {T} (X),\;$ і його можна взяти за функцію $g(\theta ,\mathrm {T} (x)).$ Таким чином одержано необхідний розклад, що завершує доведення теореми.

Приклади

Розподіл Бернуллі

Нехай $X_{1},X_{2},\ldots ,X_{n}\;$ — послідовність випадкових величин, що рівні 1 з імовірністю p і рівні 0 з імовірністю 1 - p (тобто мають розподіл Бернуллі). Тоді

\mathbb {P} (x_{1},\ldots x_{n}|p)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{\mathrm {T} (x)}(1-p)^{n-\mathrm {T} (x)}\,\!

якщо взяти $\mathrm {T} (X)=X_{1}+\ldots +X_{n}.\,\!$

Тоді дана статистика є достатньою згідно з теоремою факторизації, якщо позначити

g(p,\mathrm {T} (x_{1},\ldots x_{n}))=p^{\mathrm {T} (x_{1},\ldots x_{n})}(1-p)^{n-\mathrm {T} (x_{1},\ldots x_{n})}\,

h(x_{1},\ldots x_{n})=1

Розподіл Пуассона

Нехай $X_{1},X_{2},\ldots ,X_{n}\;$ — послідовність випадкових величин з розподілом Пуассона. Тоді

\mathbb {P} (x_{1},\ldots x_{n}|\lambda )={e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}=e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}

де $\mathrm {T} (X)=X_{1}+\ldots +X_{n}.\,\!$

Дана статистика є достатньою згідно з теоремою факторизації, якщо позначити

g(p,\mathrm {T} (x_{1},\ldots x_{n}))=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\,

h(x_{1},\ldots x_{n})={1 \over x_{1}!x_{2}!\cdots x_{n}!}

Рівномірний розподіл

Нехай $X_{1},X_{2},\ldots ,X_{n}\;$ — послідовність рівномірно розподілених випадкових величин $X_{1},X_{2},\ldots ,X_{n}\;~U(a,b)$ . Для цього випадку

\mathbb {P} (x_{1},\ldots x_{n}|\lambda )=\left(b-a\right)^{-n}\mathbf {1} _{\{a\,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,b\}}.

Звідси випливає, що статистика $T(X)=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)\,$ є достатньою.

Нормальний розподіл

Для випадкових величин $X_{1},X_{2},\ldots ,X_{n}\;$ з нормальним розподілом ${\mathcal {N}}(\mu ,\,\sigma ^{2})$ достатньою статистикою буде $\mathrm {T} (X)=\left(\sum _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}^{2}\right)\,.$

Властивості

Для достатньої статистики T та бієктивного відображення $\phi$ статистика $\phi (T)$ теж є достатньою.
Якщо $\delta (X)$ — статистична оцінка деякого параметра $\theta ,$ $\mathrm {T} (X),\;$ — деяка достатня статистика і $\delta _{1}(X)={\textrm {E}}[\delta (X)|T(X)]$ то $\delta _{1}(X)$ є кращою оцінкою параметра в сенсі середньоквадратичного відхилення, тобто виконується нерівність

{\textrm {E}}[(\delta _{1}(X)-\vartheta )^{2}]\leq {\textrm {E}}[(\delta (X)-\vartheta )^{2}]

причому рівність досягається лише коли

\delta

є вимірною функцією від T. (Теорема Рао — Блеквела)

З попереднього одержується, що оцінка може бути оптимальною в сенсі середньоквадратичного відхилення лише коли вона є вимірною функцією мінімальної достатньої статистики.
Якщо статистика $T=\mathrm {T} (X),\;$ є достатньою і повною (тобто з того, що $E_{\theta }[g(T(X))]=0,\,\forall \theta \in \Theta$ випливає, що $P_{\theta }(g(T(X))=0)=1\,\forall \theta \in \Theta$ ), то довільна вимірна функція від неї є оптимальною оцінкою свого математичного сподівання.

Див. також

Джерела

Карташов М. В. Імовірність, процеси, статистика. — Київ : ВПЦ Київський університет, 2007. — 504 с.
Гихман И. И., Скороход А. В., Ядренко М. В. Теория вероятностей и математическая статистика. — Київ : Вища школа, 1988. — 436 с.(рос.)
Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). Springer. Chapter 4. ISBN 0-387-98502-6.