Відкрити головне меню

Інформаційний критерій Акаіке (ІКА, англ. Akaike information criterion, AIC) — це міра відносної якості статистичних моделей для заданого набору даних. Маючи сукупність моделей для цих даних, ІКА оцінює якість кожної з моделей відносно кожної з інших моделей. Отже, ІКА пропонує засоби для обирання моделі.

ІКА засновано на теорії інформації: він пропонує відносні оцінки втраченої інформації при застосуванні даної моделі для представлення процесу, що породжує дані. Роблячи це, він має справу з компромісом між пристосованістю моделі та її складністю.

ІКА не пропонує перевірки моделі в сенсі перевірки нульової гіпотези; тобто, ІКА не каже нічого про якість моделі в абсолютному сенсі. Якщо всі моделі-кандидати мають погану пристосованість, то ІКА не видасть жодного попередження про це.

Зміст

ВизначенняРедагувати

Припустімо, що ми маємо статистичну модель якихось даних. Нехай L буде максимальним значенням функції правдоподібності для цієї моделі; нехай k буде числом оцінюваних параметрів у цій моделі. Тоді значенням ІКА цієї моделі є наступне.[1][2]

 

Для заданого набору моделей-кандидатів даних найкращою моделлю є та, що має мінімальне значення ІКА. Отже, ІКА винагороджує пристосованість (за оцінкою функції правдоподібності), але також включає штраф, що є висхідною функцією числа оцінюваних параметрів. Цей штраф перешкоджає перенавчанню (збільшення числа параметрів у моделі майже завжди покращує пристосованість).

ІКА засновано на теорії інформації. Припустімо, що дані породжуються якимось невідомим процесом f. Ми розглядаємо дві моделі-кандидати для представлення f: g1 та g2. Якби ми знали f, то могли би знайти втрату інформації від застосування g1 для представлення f шляхом обчислення відстані Кульбака — Лейблера, DKL(fg1); аналогічно, втрату інформації від застосування g2 для представлення f може бути знайдено обчисленням DKL(fg2). Тоді би ми вибрали модель-кандидата, що мінімізує втрату інформації.

Ми не можемо обирати з упевненістю, оскільки ми не знаємо f. Проте Akaike, (1974) показав, що за допомогою ІКА ми можемо оцінити, наскільки більше (або менше) інформації втрачається моделлю g1, аніж моделлю g2. Ця оцінка, проте, є вірною лише асимптотично; якщо кількість точок даних є малою, то часто є необхідним додаткове коригування (див. ІКАк нижче).

Як застосовувати ІКА на практиціРедагувати

Для застосування ІКА на практиці ми починаємо з набору моделей-кандидатів, а потім знаходимо відповідні значення ІКА моделей. Втрата інформації буде майже завжди, із-за застосування моделі-кандидата для представлення «справжньої» моделі (тобто процесу, що породжує дані). Серед моделей-кандидатів ми хочемо обрати таку, що мінімізує втрату інформації. Ми не можемо обирати з упевненістю, але ми можемо мінімізувати оцінювані втрати інформації.

Припустімо, що є R моделей-кандидатів. Позначмо значення ІКА (англ. AIC) для цих моделей через AIC1, AIC2, AIC3, …, AICR. Нехай AICmin буде мінімальним із цих значень. Тоді exp((AICmin − AICi)/2) можна інтерпретувати як відносну ймовірність того, що i-та модель мінімізує (оцінювану) втрату інформації.[3]

Як приклад, припустімо, що є три моделі-кандидати, значеннями ІКА яких є 100, 102 та 110. Тоді друга модель є в exp((100 − 102)/2) = 0.368 разів імовірнішою за першу модель для мінімізації втрати інформації. Аналогічно, третя модель є в exp((100 − 110)/2) = 0.007 разів імовірнішою за першу для мінімізації втрати інформації.

В цьому прикладі ми опустимо третю модель із подальшого розгляду. Тоді ми матимемо три варіанти: (1) зібрати більше даних у надії, що це дозволить здійснити чітке розрізнення між першими двома моделями; (2) просто зробити висновок, що дані є недостатніми для підтримки вибору моделі з-поміж цих двох; (3) взяти зважене середнє перших двох моделей з ваговими коефіцієнтами 1 та 0.368 відповідно, і потім здійснювати статистичне висновування на основі зваженої мультимоделі.[4]

Величина exp((AICmin − AICi)/2) є відносною правдоподібністю моделі i.

Якщо всі моделі в наборі кандидатів мають однакове число параметрів, то застосування ІКА може спершу здаватися дуже схожим на застосування перевірки відношенням правдоподібностей. Проте є істотні відмінності. Зокрема, перевірка відношенням правдоподібностей є чинною лише для вкладених моделей, тоді як ІКА (та ІКАк) не мають такого обмеження.[5]

ІКАкРедагувати

ІКАк (англ. AICc) — це ІКА з коригуванням для скінченних розмірів вибірок. Формула ІКАк залежить від статистичної моделі. За припущення, що модель є рівномірною, лінійною та має нормально розподілені залишки (обумовлені регресорами), формула ІКАк є такою:[4][6]

 

де n позначає розмір вибірки, а k позначає кількість параметрів.

Якщо припущення про рівномірну лінійну модель з нормальними залишками не виконується, то формула ІКАк в загальному випадку зміниться. Незважаючи на це, Burnham та Anderson, (2002, §7.4) радить застосовувати наведену вище формулу, якщо точніше коригування не відоме. Подальше обговорення цієї формули, з прикладами та іншими припущеннями, наводиться в Burnham та Anderson, (2002, гл. 7) та Konishi та Kitagawa, (2008, гл. 7–8). Зокрема, за інших припущень, часто є придатною бутстрепова оцінка.

ІКАк є, по суті, ІКА з більшим штрафом за додаткові параметри. Застоування ІКА замість ІКАк, якщо n не в багато разів більше за k2, збільшує ймовірність вибору моделей, що мають забагато параметрів, тобто перенавчання. В деяких випадках імовірність перенавчання ІКА може бути значною.[7][8]

Burnham та Anderson, (2002) наполегливо радять застосовувати ІКАк замість ІКА, якщо n є маленькою, або k є великою. Оскільки ІКАк збігається до ІКА, коли n стає великим, то, як правило, в будь-якому разі потрібно застосовувати ІКАк.[9]

Brockwell та Davis, (1991, с. 273) радять застосовувати ІКАк як головний критерій у вибору порядків моделі авторегресії — ковзного середнього для часових рядів. McQuarrie та Tsai, (1998) ґрунтують свою високу думку про ІКАк на обширній роботі симуляції з регресією та часовими рядами.

Зауважте, що якщо всі моделі-кандидати мають однакову k, то ІКАк та ІКА даватимуть ідентичні (відносно) оцінки; отже, не буде недоліку в застосуванні ІКА замість ІКАк. Крім того, якщо n у багато разів більше за k2, то коригування буде незначним; отже, недоліки застосування ІКА замість ІКАк будуть незначними.

ІсторіяРедагувати

Інформаційний критерій Акаіке було розроблено Хіроцуґу Акаіке[ja], початково під назвою «інформаційний критерій». Про нього було вперше заявлено Акаіке на симпозіумі 1971 року, протокол якого було опубліковано 1973 року.[10] Публікація 1973 року, однак, була лише неформальним представленням концепції.[11] Перша формальна публікація була в праці Акаіке 1974 року.[2] Станом на жовтень 2014 року праця 1974 року отримала понад 14000 цитувань в Web of Science, ставши 73-тьою найцитованішою працею за всі часи.[12]

Початкове виведення ІКА покладалося на деякі сильні припущення. Takeuchi, (1976) показав, що ці припущення може бути зроблено значно слабшими. Але праця Такеуті була японською, і не була широко відомою за межами Японії протягом багатьох років.

ІКАк початково запропонував для лінійної регресії (лише) Sugiura, (1978). Це спровокувало працю Hurvich та Tsai, (1989) та кілька подальших праць цих же авторів, що розширили ситуації, в яких може застосовуватися ІКА. Праця Hurvich & Tsai посприяла рішенню опублікувати другий випуск книги Brockwell та Davis, (1991), що є стандартним довідником з лінійних часових рядів; це друге видання вказує, що «нашим головним критерієм для вибору моделі [серед моделей авторегресії — ковзного середнього] буде ІКАк».[13]

Першим загальним викладом підходу теорії інформації була книга Burnham та Anderson, (2002). Вона включає англомовне представлення праці Такеуті. Ця книга призвела до поширення застосування ІКА, і наразі вона має понад 29000 цитувань на Google Scholar.

Акаіке початково назвав свій підхід «принципом максимізації ентропії», оскільки його засновано на понятті ентропії в теорії інформації. Дійсно, мінімізація ІКА в статистичній моделі є дієво рівнозначною максимізації ентропії в термодинамічній системі; іншими словами, підхід теорії інформації в статистиці є по суті застосуванням другого закону термодинаміки. По суті, ІКА має корені в праці Людвіга Больцмана про ентропію. Більше про ці питання див. Akaike, (1985) та Burnham та Anderson, (2002, гл. 2).

Поради щодо застосуванняРедагувати

Підрахунок параметрівРедагувати

Статистична модель мусить відповідати всім точкам даних. Таким чином, пряма лінія сама по собі не є моделлю даних, якщо не всі точки даних лежать точно на цій лінії. Проте ми можемо обрати модель, яка є «прямою лінією плюс шум»; таку модель може бути формально описано таким чином: yi = b0 + b1xi + εi. Тут εi є залишками від влучання в пряму лінію. Якщо εi вважаються гаусовими НОР (з нульовим середнім значенням), то модель має три параметри: b0, b1 та дисперсію гаусових розподілів. Отже, при обчисленні ІАК для цієї моделі ми повинні використовувати k=3. Загальніше, для будь-якої моделі найменших квадратів з гаусовими НОР залишками дисперсія розподілів залишків повинна рахуватися як один з параметрів.[14]

Як інший приклад розгляньмо авторегресійну модель[en] першого порядку, визначену як xi = c + φxi−1 + εi, де εi є гаусовими НОР (з нульовим середнім значенням). У випадку цієї моделі існує три параметри: c, φ та дисперсія εi. Загальніше, авторегресійна модель p-того порядку має p + 2 параметри. (Проте, якщо c не оцінюється, а задане завчасно, тоді є лише p + 1 параметрів.)

Перетворення данихРедагувати

Значення АІК для всіх моделей-кандидатів мусять обчислюватися на одному й тому ж наборі даних. Проте іноді нам може захотітися порівняти модель даних із моделлю логарифму даних; загальніше, нам може захотітися порівняти модель даних із моделлю перетворених даних. Ось ілюстрація, як давати раду перетворенням даних (пристосована з Burnham та Anderson, (2002, §2.11.3)).

Припустімо, що ми хочемо порівнювати дві моделі: нормальний розподіл даних та нормальний розподіл логарифму даних. Ми не повинні порівнювати значення ІКА двох моделей напряму. Натомість ми повинні перетворити нормальну інтегральну функцію розподілу, щоби спочатку взяти логарифм даних. Для здійснення цього нам потрібно виконати відповідне інтегрування підстановкою[en]: таким чином, нам потрібно помножити на похідну функції (натурального) логарифму, що є 1/x. Отже, перетворений розподіл має наступну функцію густини ймовірності:

 

що є функцією густини ймовірності логнормального розподілу. Тепер ми можемо порівнювати значення ІКА нормальної моделі зі значенням ІКА логнормальної моделі.

Ненадійність програмного забезпеченняРедагувати

Деяке статистичне програмне забезпечення повідомлятиме значення ІКА або максимальне значення логарифмічної функції правдоподібності, але ці значення не завжди є правильними. Як правило, неправильність спричинюється нехтуванням сталою в логарифмічній функції правдоподібності. Наприклад, логарифмічною функцією правдоподібності для n незалежних ідентичних нормальних розподілів є

 

Це є функцією, що максимізується при отриманні значення ІКА. Проте деяке програмне забезпечення нехтує членом (n/2)ln(2π), і таким чином повідомляє помилкові значення максимумів логарифмічних правдоподібностей, і, відтак, ІКА. Такі помилки не мають значення для порівнянь на базі ІКА, якщо всі моделі мають нормально розподілені залишки, оскільки тоді помилки взаємно компенсуються. Проте в загальному випадку сталий член потребує включення до логарифмічної функції правдоподібності.[15] Отже, перш ніж застосовувати програмне забезпечення для обчислення ІКА, в загальному випадку є гарною звичкою виконати якісь прості перевірки на цьому програмному забезпеченні, щоби переконатися, що значення функцій є правильними.

Порівняння з іншими методами вибору моделіРедагувати

Порівняння з БІКРедагувати

ІКА штрафує кількість параметрів не так сильно, як Баєсів інформаційний критерій (БІК). Порівняння ІКА/ІКАк та БІК наведено в Burnham та Anderson, (2002, §6.4). Автори показують, що ІКА та ІКАк може бути виведено в такій самій баєсовій системі, що й БІК, лише застосовуючи інше апріорне. Автори також стверджують, що ІКА/ІКАк має теоретичні переваги над БІК. По-перше, оскільки ІКА/ІКАк виводиться з принципів інформації, а БІК — ні, незважаючи на його назву. По-друге, оскільки виведення БІК (в межах баєсової системи) має апріорне 1/R (де R є кількістю моделей-кандидатів), що є «не чутливим» (англ. not sensible), оскільки апріорне повинне бути спадною функцією k. Крім того, вони представляють кілька симуляційних досліджень, які наводять на думку, що ІКА має схильність мати практичні/продуктивні переваги над БІК. Див. також Burnham та Anderson, (2004).

Подальше порівняння ІКА та БІК, у контексті регресії, наведено в Yang, (2005). Зокрема, ІКА є асимптотично оптимальним у виборі моделі з найменшою середньоквадратичною похибкою[en], за припущення, що точна «істинна» модель не входить до набору кандидатів (як практично завжди буває на практиці); БІК не є асимптотично оптимальним за цього припущення. Янг додатково показує, що темп, з яким ІКА збігається до оптимуму, в певному сенсі є найкращим з можливих.

Детальніше порівняння ІКА та БІК див. у Vrieze, (2012) та Aho, Derryberry та Peterson, (2014).

Порівняння з перевіркою хі-квадратРедагувати

Загальний випадокРедагувати

Часто ми хочемо обирати серед моделей-кандидатів, в яких всі функції правдоподібності передбачають, що залишки є нормально розподіленими (з нульовим середнім) та незалежними. Це припущення веде до перевірок хі-квадрат, що ґрунтуються на розподілі χ² (та пов'язані з R2). Застосування перевірок хі-квадрат виявляється пов'язаним із застосуванням ІКА.

Згідно нашого припущення, максимальна правдоподібність задається як

 
 
 ,

де C є сталою, що не залежить від застосовуваної моделі, а залежить лише від використання конкретних точок даних, тобто, вона не змінюється, якщо не змінюються дані.

Таким чином, AIC = 2k − 2ln(L) = 2k − 2(C − χ²/2) = 2k − 2C + χ². Оскільки змістовними є лише різниці ІКА, сталу C можна ігнорувати, що дозволяє нам брати для порівняння моделей AIC = 2k + χ².

Випадок однакових дисперсійРедагувати

Особливо зручний вираз для ІКА може бути отримано в випадку, коли всі σi вважаються однаковими (тобто, σi = σ), та σ є невідомою. В такому випадку оцінкою максимальної правдоподібності для σ2 є RSS/n, де RSS є залишковою сумою квадратів[en] (англ. Residual Sum of Squares):  . Це дає AIC = 2k + n ln(RSS/n) + C1 = 2k + n ln(RSS) + C2.[14] Як і вище, для порівняння моделей сталу можна ігнорувати.

Порівняння з перехресною перевіркоюРедагувати

Перехресна перевірка є асимптотично еквівалентною ІКА для звичайних лінійних регресійних моделей.[16] Така асимптотична еквівалентність також має місце й для моделей зі змішаними рівнями факторів.[17]

Порівняння з Cp МеллоузаРедагувати

Cp Меллоуза[en] є еквівалентом ІКА у випадку (гаусової) лінійної регресії.[18]

Див. такожРедагувати

ПриміткиРедагувати

ДжерелаРедагувати

ЛітератураРедагувати

ПосиланняРедагувати