Дельта-метод (англ. Delta method ) у статистиці — твердження щодо наближеного ймовірнісного розподілу функції асимптотично нормальної статистичної оцінки за відомої граничної варіації цієї оцінки.
Одновимірний дельта-метод
ред.
У той час, як метод дельта легко узагальнюється до багатовимірного випадку, точне обґрунтування цієї методики легше продемонструвати в одновимірних умовах. Грубо кажучи, якщо є послідовність випадкових величин
X
n
{\displaystyle X_{n}}
, що задовольняють
n
[
X
n
−
θ
]
→
D
N
(
0
,
σ
2
)
,
{\displaystyle {{\sqrt {n}}[X_{n}-\theta ]\,{\xrightarrow {D}}\,{\mathcal {N}}(0,\sigma ^{2})},}
де
θ
{\displaystyle \theta }
та
σ
2
{\displaystyle \sigma ^{2}}
— скінченні константи і
→
D
{\displaystyle {\xrightarrow {D}}}
позначає збіжність за розподілом , тоді
n
[
g
(
X
n
)
−
g
(
θ
)
]
→
D
N
(
0
,
σ
2
[
g
′
(
θ
)
]
2
)
{\displaystyle {{\sqrt {n}}[g(X_{n})-g(\theta )]\,{\xrightarrow {D}}\,{\mathcal {N}}(0,\sigma ^{2}[g'(\theta )]^{2})}}
для довільної функції g , яка задовольняє властивість:
∃
g
′
(
θ
)
≠
0
{\displaystyle \exists \ g'(\theta )\neq 0}
(існує і не дорівнює нулю).
Доведення одновимірного випадку
ред.
Доведення твердження досить просте у випадку неперервної похідної
g
′
(
θ
)
{\displaystyle g'(\theta )}
. Для початку скористаємось теоремою Лагранжа про середнє :
g
(
X
n
)
=
g
(
θ
)
+
g
′
(
θ
~
)
(
X
n
−
θ
)
,
{\displaystyle g(X_{n})=g(\theta )+g'({\tilde {\theta }})(X_{n}-\theta ),}
де
θ
~
{\displaystyle {\tilde {\theta }}}
знаходиться між Xn та
θ
{\displaystyle \theta }
.
Зауважте, що оскільки
X
n
→
P
θ
{\displaystyle X_{n}\,{\xrightarrow {P}}\,\theta }
та
X
n
<
θ
~
<
θ
{\displaystyle X_{n}<{\tilde {\theta }}<\theta }
, то відповідно маємо
θ
~
→
P
θ
{\displaystyle {\tilde {\theta }}\,{\xrightarrow {P}}\,\theta }
і оскільки
g
′
(
θ
)
{\displaystyle g'(\theta )}
неперервна, то, застосовуючи теорему про неперервне відображення, маємо
g
′
(
θ
~
)
→
P
g
′
(
θ
)
,
{\displaystyle g'({\tilde {\theta }})\,{\xrightarrow {P}}\,g'(\theta ),}
де
→
P
{\displaystyle {\xrightarrow {P}}}
позначає збіжність за розподілом.
Після тривіальних перетворень і множення на
n
{\displaystyle {\sqrt {n}}}
маємо
n
[
g
(
X
n
)
−
g
(
θ
)
]
=
g
′
(
θ
~
)
n
[
X
n
−
θ
]
.
{\displaystyle {\sqrt {n}}[g(X_{n})-g(\theta )]=g'\left({\tilde {\theta }}\right){\sqrt {n}}[X_{n}-\theta ].}
Оскільки
n
[
X
n
−
θ
]
→
D
N
(
0
,
σ
2
)
{\displaystyle {{\sqrt {n}}[X_{n}-\theta ]{\xrightarrow {D}}{\mathcal {N}}(0,\sigma ^{2})}}
за припущенням і використовуючи теорему Слуцького випливає
n
[
g
(
X
n
)
−
g
(
θ
)
]
→
D
N
(
0
,
σ
2
[
g
′
(
θ
)
]
2
)
.
{\displaystyle {{\sqrt {n}}[g(X_{n})-g(\theta )]{\xrightarrow {D}}{\mathcal {N}}(0,\sigma ^{2}[g'(\theta )]^{2})}.}
Що й треба було показати.
Доведення з явним використанням О-символіки
ред.
Альтернативно, можна було б додати ще один крок в кінці для отримання порядкового наближення:
n
[
g
(
X
n
)
−
g
(
θ
)
]
=
g
′
(
θ
~
)
n
[
X
n
−
θ
]
=
n
[
X
n
−
θ
]
[
g
′
(
θ
~
)
+
g
′
(
θ
)
−
g
′
(
θ
)
]
=
n
[
X
n
−
θ
]
[
g
′
(
θ
)
]
+
n
[
X
n
−
θ
]
[
g
′
(
θ
~
)
−
g
′
(
θ
)
]
=
n
[
X
n
−
θ
]
[
g
′
(
θ
)
]
+
O
p
(
1
)
⋅
o
p
(
1
)
=
n
[
X
n
−
θ
]
[
g
′
(
θ
)
]
+
o
p
(
1
)
{\displaystyle {\begin{aligned}{\sqrt {n}}[g(X_{n})-g(\theta )]&=g'\left({\tilde {\theta }}\right){\sqrt {n}}[X_{n}-\theta ]={\sqrt {n}}[X_{n}-\theta ]\left[g'({\tilde {\theta }})+g'(\theta )-g'(\theta )\right]\\&={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta )\right]+{\sqrt {n}}[X_{n}-\theta ]\left[g'({\tilde {\theta }})-g'(\theta )\right]\\&={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta )\right]+O_{p}(1)\cdot o_{p}(1)\\&={\sqrt {n}}[X_{n}-\theta ]\left[g'(\theta )\right]+o_{p}(1)\end{aligned}}}
Що показує прямування наближення за ймовірністю до нуля.
Багатовимірний дельта-метод
ред.
За означенням, конзистентна оцінка B збігається за ймовірністю до її справжнього значення β , і, застосовуючи центральну граничну теорему, можна отримати асимптотичну нормальність:
n
(
B
−
β
)
→
D
N
(
0
,
Σ
)
,
{\displaystyle {\sqrt {n}}\left(B-\beta \right)\,{\xrightarrow {D}}\,N\left(0,\Sigma \right),}
де n — число спостережень і Σ — матриця коваріації (симетрична позитивно напів-визначена). Нехай треба оцінити варіацію функції h оцінки B . Беручи до уваги тільки два перші члени розкладу Тейлора , з використанням векторного позначення градієнта , можемо оцінити h(B) як
h
(
B
)
≈
h
(
β
)
+
∇
h
(
β
)
T
⋅
(
B
−
β
)
{\displaystyle h(B)\approx h(\beta )+\nabla h(\beta )^{T}\cdot (B-\beta )}
звідки випливає, що варіація h(B) наближено дорівнює
Var
(
h
(
B
)
)
≈
Var
(
h
(
β
)
+
∇
h
(
β
)
T
⋅
(
B
−
β
)
)
=
Var
(
h
(
β
)
+
∇
h
(
β
)
T
⋅
B
−
∇
h
(
β
)
T
⋅
β
)
=
Var
(
∇
h
(
β
)
T
⋅
B
)
=
∇
h
(
β
)
T
⋅
Cov
(
B
)
⋅
∇
h
(
β
)
=
∇
h
(
β
)
T
⋅
(
Σ
/
n
)
⋅
∇
h
(
β
)
{\displaystyle {\begin{aligned}\operatorname {Var} \left(h(B)\right)&\approx \operatorname {Var} \left(h(\beta )+\nabla h(\beta )^{T}\cdot (B-\beta )\right)\\&=\operatorname {Var} \left(h(\beta )+\nabla h(\beta )^{T}\cdot B-\nabla h(\beta )^{T}\cdot \beta \right)\\&=\operatorname {Var} \left(\nabla h(\beta )^{T}\cdot B\right)\\&=\nabla h(\beta )^{T}\cdot \operatorname {Cov} (B)\cdot \nabla h(\beta )\\&=\nabla h(\beta )^{T}\cdot (\Sigma /n)\cdot \nabla h(\beta )\end{aligned}}}
Застосовуючи теорему Лагранжа про середнє (для дійснозначних функцій багатьох змінних), можна переконатись, що доведення не спирається на той факт, що враховуються тільки наближення першого порядку.
Отже, з дельта-методу випливає
n
(
h
(
B
)
−
h
(
β
)
)
→
D
N
(
0
,
∇
h
(
β
)
T
⋅
Σ
⋅
∇
h
(
β
)
)
{\displaystyle {\sqrt {n}}\left(h(B)-h(\beta )\right)\,{\xrightarrow {D}}\,N\left(0,\nabla h(\beta )^{T}\cdot \Sigma \cdot \nabla h(\beta )\right)}
чи в одновимірному випадку,
n
(
h
(
B
)
−
h
(
β
)
)
→
D
N
(
0
,
σ
2
⋅
(
h
′
(
β
)
)
2
)
.
{\displaystyle {\sqrt {n}}\left(h(B)-h(\beta )\right)\,{\xrightarrow {D}}\,N\left(0,\sigma ^{2}\cdot \left(h^{\prime }(\beta )\right)^{2}\right).}
Casella, G. and Berger, R. L. (2002), Statistical Inference, 2nd ed.
Cramér, H. (1946), Mathematical Methods of Statistics, p. 353.
Davison, A. C. (2003), Statistical Models, pp. 33-35.
Greene, W. H. (2003), Econometric Analysis, 5th ed., pp. 913f.
Klein, L. R. (1953), A Textbook of Econometrics, p. 258.