Достатня статистика для параметра
θ
∈
Θ
,
{\displaystyle \theta \in \Theta ,\;}
що визначає деяке сімейство
F
θ
{\displaystyle F_{\theta }}
розподілів ймовірності — статистика
T
=
T
(
X
)
,
{\displaystyle T=\mathrm {T} (X),\;}
така, що умовна імовірність вибірки
X
=
X
1
,
X
2
,
…
,
X
n
{\displaystyle X=X_{1},X_{2},\ldots ,X_{n}\;}
при даному значенні
T
(
X
)
{\displaystyle \mathrm {T} (X)\;}
не залежить від параметра
θ
.
{\displaystyle \theta \;.}
Тобто виконується рівність:
P
(
X
∈
X
¯
|
T
(
X
)
=
t
,
θ
)
=
P
(
X
∈
X
¯
|
T
(
X
)
=
t
)
,
{\displaystyle \mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t,\theta )=\mathbb {P} (X\in {\bar {X}}|\mathrm {T} (X)=t),\,}
Достатня статистика
T
(
X
)
,
{\displaystyle \mathrm {T} (X),\;}
таким чином містить у собі всю інформацію про параметр
θ
,
{\displaystyle \theta \;,}
що може бути одержана на основі вибірки X . Тому поняття достатньої статистики широко використовується в теорії оцінки параметрів .
Найпростішою достатньою статистикою є сама вибірка
T
(
X
)
=
X
,
{\displaystyle \mathrm {T} (X)=X,\;}
проте справді важливими є випадки коли величина достатньої статистики значно менша від величини вибірки, зокрема коли достатня статистика виражається лише кількома числами.
Достатня статистика
S
=
S
(
X
)
{\displaystyle S=\mathrm {S} (X)\;}
називається мінімальною достатньою , якщо для кожної достатньої статистики T існує невипадкова вимірна функція g , що
S
(
X
)
=
g
(
T
(
X
)
)
{\displaystyle S(X)=g(T(X))}
майже напевно .
Теорема факторизації
ред.
Теорема факторизації дає спосіб практичного знаходження достатньої статистики для розподілу ймовірності. Вона дає достатні і необхідні умови достатності статистики і твердження теореми іноді використовується як означення.
Нехай
T
(
X
)
{\displaystyle \mathrm {T} (X)\;}
— деяка статистика, а
f
θ
(
x
)
{\displaystyle f_{\theta }(x)}
— умовна функція щільності чи функція ймовірностей (залежно від виду розподілу) для вектора спостережень X . Тоді
T
(
X
)
{\displaystyle \mathrm {T} (X)\;}
є достатньою статистикою для параметра
θ
∈
Θ
,
{\displaystyle \theta \in \Theta ,\;}
якщо і тільки якщо існують такі вимірні функції h і g, що можна записати:
f
θ
(
x
)
=
h
(
x
)
g
(
θ
,
T
(
x
)
)
{\displaystyle f_{\theta }(x)=h(x)\,g(\theta ,\mathrm {T} (x))\,\!}
Нижче подано доведення для часткового випадку коли розподіл ймовірностей є дискретним . Тоді
f
θ
(
x
)
=
P
(
X
=
x
|
θ
)
{\displaystyle f_{\theta }(x)=\mathbb {P} (X=x|\theta )}
— функція ймовірностей . Нехай дана функція має факторизацію, як у твердженні теореми і
T
(
x
)
=
t
.
{\displaystyle \mathrm {T} (x)=t.}
Тоді маємо:
P
(
X
=
x
|
T
(
X
)
=
t
,
θ
)
=
P
(
X
=
x
|
θ
)
P
(
T
(
X
)
=
t
|
θ
)
=
h
(
x
)
g
(
θ
,
T
(
x
)
)
∑
x
:
T
(
x
)
=
t
h
(
x
)
g
(
θ
,
T
(
x
)
)
=
h
(
x
)
g
(
θ
,
t
)
∑
x
:
T
(
x
)
=
t
h
(
x
)
g
(
θ
,
t
)
=
h
(
x
)
∑
x
:
T
(
x
)
=
t
h
(
x
)
.
{\displaystyle {\begin{aligned}\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )&={\frac {\mathbb {P} (X=x|\theta )}{\mathbb {P} (\mathrm {T} (X)=t|\theta )}}&={\frac {h(x)\,g(\theta ,\mathrm {T} (x))}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,\mathrm {T} (x))}}\\&={\frac {h(x)\,g(\theta ,t)}{\sum _{x:\mathrm {T} (x)=t}h(x)\,g(\theta ,t)}}&={\frac {h(x)\,}{\sum _{x:\mathrm {T} (x)=t}h(x)\,}}.\end{aligned}}}
Звідси бачимо, що умовна ймовірність вектора X при заданому значенні статистики
T
(
X
)
{\displaystyle \mathrm {T} (X)\;}
не залежить від параметра і відповідно
T
(
X
)
{\displaystyle \mathrm {T} (X)\;}
— достатня статистика.
Навпаки можемо записати:
P
(
X
=
x
|
θ
)
=
P
(
X
=
x
|
T
(
X
)
=
t
,
θ
)
⋅
P
(
T
(
X
)
=
t
|
θ
)
.
{\displaystyle \mathbb {P} (X=x|\theta )=\mathbb {P} (X=x|\mathrm {T} (X)=t,\theta )\cdot \mathbb {P} (\mathrm {T} (X)=t|\theta ).\,}
З попереднього маємо, що перший множник правої сторони не залежить від параметра
θ
{\displaystyle \theta \;}
і його можна взяти за функцію h(x) з твердження теореми. Другий множник є функцією від
θ
{\displaystyle \theta \;}
і
T
(
X
)
,
{\displaystyle \mathrm {T} (X),\;}
і його можна взяти за функцію
g
(
θ
,
T
(
x
)
)
.
{\displaystyle g(\theta ,\mathrm {T} (x)).}
Таким чином одержано необхідний розклад, що завершує доведення теореми.
Нехай
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\;}
— послідовність випадкових величин, що рівні 1 з імовірністю p і рівні 0 з імовірністю 1 - p (тобто мають розподіл Бернуллі ). Тоді
P
(
x
1
,
…
x
n
|
p
)
=
p
∑
x
i
(
1
−
p
)
n
−
∑
x
i
=
p
T
(
x
)
(
1
−
p
)
n
−
T
(
x
)
{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|p)=p^{\sum x_{i}}(1-p)^{n-\sum x_{i}}=p^{\mathrm {T} (x)}(1-p)^{n-\mathrm {T} (x)}\,\!}
якщо взяти
T
(
X
)
=
X
1
+
…
+
X
n
.
{\displaystyle \mathrm {T} (X)=X_{1}+\ldots +X_{n}.\,\!}
Тоді дана статистика є достатньою згідно з теоремою факторизації, якщо позначити
g
(
p
,
T
(
x
1
,
…
x
n
)
)
=
p
T
(
x
1
,
…
x
n
)
(
1
−
p
)
n
−
T
(
x
1
,
…
x
n
)
{\displaystyle g(p,\mathrm {T} (x_{1},\ldots x_{n}))=p^{\mathrm {T} (x_{1},\ldots x_{n})}(1-p)^{n-\mathrm {T} (x_{1},\ldots x_{n})}\,}
h
(
x
1
,
…
x
n
)
=
1
{\displaystyle h(x_{1},\ldots x_{n})=1}
Нехай
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\;}
— послідовність випадкових величин з розподілом Пуассона . Тоді
P
(
x
1
,
…
x
n
|
λ
)
=
e
−
λ
λ
x
1
x
1
!
⋅
e
−
λ
λ
x
2
x
2
!
⋯
e
−
λ
λ
x
n
x
n
!
=
e
−
n
λ
λ
(
x
1
+
x
2
+
⋯
+
x
n
)
⋅
1
x
1
!
x
2
!
⋯
x
n
!
=
e
−
n
λ
λ
T
(
x
)
⋅
1
x
1
!
x
2
!
⋯
x
n
!
{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|\lambda )={e^{-\lambda }\lambda ^{x_{1}} \over x_{1}!}\cdot {e^{-\lambda }\lambda ^{x_{2}} \over x_{2}!}\cdots {e^{-\lambda }\lambda ^{x_{n}} \over x_{n}!}=e^{-n\lambda }\lambda ^{(x_{1}+x_{2}+\cdots +x_{n})}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\cdot {1 \over x_{1}!x_{2}!\cdots x_{n}!}}
де
T
(
X
)
=
X
1
+
…
+
X
n
.
{\displaystyle \mathrm {T} (X)=X_{1}+\ldots +X_{n}.\,\!}
Дана статистика є достатньою згідно з теоремою факторизації, якщо позначити
g
(
p
,
T
(
x
1
,
…
x
n
)
)
=
e
−
n
λ
λ
T
(
x
)
{\displaystyle g(p,\mathrm {T} (x_{1},\ldots x_{n}))=e^{-n\lambda }\lambda ^{\mathrm {T} (x)}\,}
h
(
x
1
,
…
x
n
)
=
1
x
1
!
x
2
!
⋯
x
n
!
{\displaystyle h(x_{1},\ldots x_{n})={1 \over x_{1}!x_{2}!\cdots x_{n}!}}
Рівномірний розподіл
ред.
Нехай
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\;}
— послідовність рівномірно розподілених випадкових величин
X
1
,
X
2
,
…
,
X
n
U
(
a
,
b
)
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\;~U(a,b)}
. Для цього випадку
P
(
x
1
,
…
x
n
|
λ
)
=
(
b
−
a
)
−
n
1
{
a
≤
min
1
≤
i
≤
n
X
i
}
1
{
max
1
≤
i
≤
n
X
i
≤
b
}
.
{\displaystyle \mathbb {P} (x_{1},\ldots x_{n}|\lambda )=\left(b-a\right)^{-n}\mathbf {1} _{\{a\,\leq \,\min _{1\leq i\leq n}X_{i}\}}\mathbf {1} _{\{\max _{1\leq i\leq n}X_{i}\,\leq \,b\}}.}
Звідси випливає, що статистика
T
(
X
)
=
(
min
1
≤
i
≤
n
X
i
,
max
1
≤
i
≤
n
X
i
)
{\displaystyle T(X)=\left(\min _{1\leq i\leq n}X_{i},\max _{1\leq i\leq n}X_{i}\right)\,}
є достатньою.
Для випадкових величин
X
1
,
X
2
,
…
,
X
n
{\displaystyle X_{1},X_{2},\ldots ,X_{n}\;}
з нормальним розподілом
N
(
μ
,
σ
2
)
{\displaystyle {\mathcal {N}}(\mu ,\,\sigma ^{2})}
достатньою статистикою буде
T
(
X
)
=
(
∑
i
=
1
n
X
i
,
∑
i
=
1
n
X
i
2
)
.
{\displaystyle \mathrm {T} (X)=\left(\sum _{i=1}^{n}X_{i},\sum _{i=1}^{n}X_{i}^{2}\right)\,.}
Для достатньої статистики T та бієктивного відображення
ϕ
{\displaystyle \phi }
статистика
ϕ
(
T
)
{\displaystyle \phi (T)}
теж є достатньою.
Якщо
δ
(
X
)
{\displaystyle \delta (X)}
— статистична оцінка деякого параметра
θ
,
{\displaystyle \theta ,}
T
(
X
)
,
{\displaystyle \mathrm {T} (X),\;}
— деяка достатня статистика і
δ
1
(
X
)
=
E
[
δ
(
X
)
|
T
(
X
)
]
{\displaystyle \delta _{1}(X)={\textrm {E}}[\delta (X)|T(X)]}
то
δ
1
(
X
)
{\displaystyle \delta _{1}(X)}
є кращою оцінкою параметра в сенсі середньоквадратичного відхилення, тобто виконується нерівність
E
[
(
δ
1
(
X
)
−
ϑ
)
2
]
≤
E
[
(
δ
(
X
)
−
ϑ
)
2
]
{\displaystyle {\textrm {E}}[(\delta _{1}(X)-\vartheta )^{2}]\leq {\textrm {E}}[(\delta (X)-\vartheta )^{2}]}
причому рівність досягається лише коли
δ
{\displaystyle \delta }
є вимірною функцією від T . (Теорема Рао — Блеквела )
З попереднього одержується, що оцінка може бути оптимальною в сенсі середньоквадратичного відхилення лише коли вона є вимірною функцією мінімальної достатньої статистики.
Якщо статистика
T
=
T
(
X
)
,
{\displaystyle T=\mathrm {T} (X),\;}
є достатньою і повною (тобто з того, що
E
θ
[
g
(
T
(
X
)
)
]
=
0
,
∀
θ
∈
Θ
{\displaystyle E_{\theta }[g(T(X))]=0,\,\forall \theta \in \Theta }
випливає, що
P
θ
(
g
(
T
(
X
)
)
=
0
)
=
1
∀
θ
∈
Θ
{\displaystyle P_{\theta }(g(T(X))=0)=1\,\forall \theta \in \Theta }
), то довільна вимірна функція від неї є оптимальною оцінкою свого математичного сподівання .