Баєсів інформаційний критерій

У статистиці, ба́єсів інформаці́йний крите́рій (БІК, англ. bayesian information criterion, BIC), або крите́рій Шва́рца (англ. Schwarz criterion, також англ. SBC, SBIC) — статистичний критерій для обирання моделі серед скінченної множини моделей; найприйнятнішою є модель із найнижчим БІК. Він ґрунтується, зокрема, на функції правдоподібності, і тісно пов'язаний з інформаційним критерієм Акаіке (ІКА).

При допасовуванні моделей можливо підвищувати правдоподібність шляхом додавання параметрів, але це може призводити до перенавчання. Як БІК, так і ІКА намагаються розв'язувати цю проблему введенням члена штрафу для числа параметрів у моделі; член штрафу в БІК є більшим, ніж в ІКА.

БІК було розроблено Ґідеоном Шварцем, і опубліковано в праці 1978 року,^[1] в якій він навів баєсове обґрунтування його застосування.

Визначення

БІК формально визначається як^[2]

\mathrm {BIC} ={\ln(n)k-2\ln({\hat {L}})}.\

де

${\hat {L}}$ = максимізоване значення функції правдоподібності моделі $M$ , тобто, ${\hat {L}}=p(x|{\hat {\theta }},M)$ , де ${\hat {\theta }}$ є значеннями параметрів, які максимізують функцію правдоподібності;
$x$ = спостережувані дані;
$n$ = число точок даних в $x$ , число спостережень, або, рівнозначно, розмір вибірки;
$k$ = число вільних параметрів, які належить оцінити. Якщо модель, що розглядають, є лінійною регресією, то $k$ є числом регресорів, включно з відтином;

БІК є асимптотичним результатом, виведеним за припущення, що розподіл даних належить до експоненційного сімейства^[en]. Тобто, інтеграл функції правдоподібності $p(x|\theta ,M)$ , помножений на апріорний розподіл ймовірності $p(\theta |M)$ над параметрами $\theta$ моделі $M$ , для незмінних спостережених даних $x$ наближується як

{-2\cdot \ln {p(x|M)}}\approx \mathrm {BIC} ={-2\cdot \ln {\hat {L}}+k\cdot (\ln(n)-\ln(2\pi ))}.\

Для великих $n$ це може бути наближено наведеною вище формулою. БІК використовують в задачах обирання моделі, що в них додавання сталої до БІК не змінює результату.

Властивості

Він не залежить від апріорного, або апріорне є «невизначеним» (сталою).
Він може вимірювати ефективність параметризованої моделі в термінах передбачування даних.
Він штрафує складність моделі, де складність позначає кількість параметрів моделі.
Він наближено дорівнює критерієві мінімальної довжини опису, але з протилежним знаком.
Його можна застосовувати для обирання числа кластерів відповідно до внутрішньої складності, присутньої в певному наборі даних.
Він тісно пов'язаний з іншими критеріями штрафованої правдоподібності, такими як RIC^{[прояснити: ком.]} та інформаційний критерій Акаіке.

Обмеження

Критерій БІК страждає на два головні обмеження^[3]

наведене вище наближення чинне лише для розміру вибірки $n$ , який є набагато більшим за число параметрів моделі $k$ .
БІК не може обробляти складні зібрання моделей, як у задачі обирання змінних (або обирання ознак) за високої розмірності.^[3]

Гаусів особливий випадок

За припущення, що похибки або збурення моделі є незалежними та однаково розподіленими згідно нормального розподілу, і граничної умови, що похідна логарифмічної правдоподібності щодо істинної дисперсії є нульовою, це перетворюється (з точністю до адитивної сталої, яка залежить від n, але не від моделі) на^[4]

\mathrm {BIC} =n\cdot \ln({\widehat {\sigma _{e}^{2}}})+k\cdot \ln(n)\

де ${\widehat {\sigma _{e}^{2}}}$ є дисперсією похибки. Дисперсію похибки в цьому випадку визначають як

{\widehat {\sigma _{e}^{2}}}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\hat {x_{i}}})^{2}

що є зсунутою оцінкою істинної дисперсії.

В термінах залишкової суми квадратів^[en] БІК є

\mathrm {BIC} =n\cdot \ln(RSS/n)+k\cdot \ln(n)\

При перевірці декількох лінійних моделей відносно насиченої моделі БІК може бути переписано в термінах девіантності^[en] $\chi ^{2}$ як^[5]

\mathrm {BIC} =\chi ^{2}+k\cdot \ln(n)

де $k$ є числом параметрів моделі в перевірці.

При обиранні з декількох моделей найприйнятнішою є модель із найнижчим БІК. БІК є висхідною функцією дисперсії похибки $\sigma _{e}^{2}$ , і висхідною функцією k. Тобто, незрозуміла дисперсія в залежній змінній та число описових змінних збільшують значення БІК. Отже, нижчий БІК означає або меншу кількість описових змінних, або кращу допасованість, або обидві. Силу свідчення проти моделі з вищим БІК може бути узагальнено наступним чином:^[5]

ΔБІК	Свідчення проти вищого БІК
0 to 2	Не варте більше ніж просто згадування
2 to 6	Позитивне
6 to 10	Сильне
>10	Дуже сильне

БІК зазвичай штрафує вільні параметри сильніше за Інформаційний критерій Акаіке, хоча це залежить від розміру n і відносної величини n і k.

Важливо мати на увазі, що БІК можна застосовувати для порівняння оцінюваних моделей лише якщо числові значення залежної змінної є однаковими для всіх порівнюваних оцінок. Порівнюваним моделям не потрібно бути вкладеними, на відміну від випадку, коли моделі порівнюють із застосуванням критерію Фішера або перевірки відношенням правдоподібностей.

Див. також

Примітки

↑ Schwarz, Gideon E. (1978), Estimating the dimension of a model, Annals of Statistics^[en], 6 (2): 461—464, doi:10.1214/aos/1176344136, MR 0468014 (англ.)
↑ Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). ‘All models are wrong...’: an introduction to model uncertainty. Statistica Neerlandica. 66 (3): 217—236. doi:10.1111/j.1467-9574.2012.00530.x. (англ.)
↑ ^а ^б Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN 9781482237948. (англ.)
↑ Priestley, M.B. (1981). Spectral Analysis and Time Series. Academic Press^[en]. ISBN 0-12-564922-3. (p. 375). (англ.)
↑ ^а ^б Kass, Robert E.; Raftery, Adrian E. (1995), Bayes Factors, Journal of the American Statistical Association^[en], 90 (430): 773—795, doi:10.2307/2291091, ISSN 0162-1459 (англ.)

Джерела

Bhat, H. S.; Kumar, N (2010). On the derivation of the Bayesian Information Criterion (PDF). Архів оригіналу (PDF) за 28 березня 2012. (англ.)
Findley, D. F. (1991). Counterexamples to parsimony and BIC. Annals of the Institute of Statistical Mathematics^[en]. 43: 505—514. doi:10.1007/BF00053369. (англ.)
Kass, R. E.; Wasserman, L. (1995). A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion. Journal of the American Statistical Association^[en]. 90: 928—934. (англ.)
Liddle, A. R. (2007). Information criteria for astrophysical model selection. Monthly Notices of the Royal Astronomical Society. 377: L74—L78. (англ.)
McQuarrie, A. D. R.; Tsai, C.-L. (1998). Regression and Time Series Model Selection. World Scientific. (англ.)

Посилання

Information Criteria and Model Selection [Архівовано 27 березня 2017 у Wayback Machine.] (англ.)
Sparse Vector Autoregressive Modeling [Архівовано 2 серпня 2017 у Wayback Machine.] (англ.)

[1] Schwarz, Gideon E. (1978), Estimating the dimension of a model, Annals of Statistics^[en], 6 (2): 461—464, doi:10.1214/aos/1176344136, MR 0468014 (англ.)

[2] Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). ‘All models are wrong...’: an introduction to model uncertainty. Statistica Neerlandica. 66 (3): 217—236. doi:10.1111/j.1467-9574.2012.00530.x. (англ.)

[Giraud-3] а ^б Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN 9781482237948. (англ.)

[Priestley-4] Priestley, M.B. (1981). Spectral Analysis and Time Series. Academic Press^[en]. ISBN 0-12-564922-3. (p. 375). (англ.)

[Raftery1995-5] а ^б Kass, Robert E.; Raftery, Adrian E. (1995), Bayes Factors, Journal of the American Statistical Association^[en], 90 (430): 773—795, doi:10.2307/2291091, ISSN 0162-1459 (англ.)

[1]

[2]

[3]

[4]

[5]