У математичній статистиці інформа́ція за Фі́шером (англ. Fisher information, іноді звана просто інформа́цією, англ. information[1]) — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина X несе про невідомий параметр θ розподілу, який моделює X. Формально це дисперсія внеску, або математичне сподівання спостережуваної інформації(інші мови).

Роль інформації за Фішером в асимптотичній теорії оцінювання максимальною правдоподібністю підкреслив і дослідив статистик сер Рональд Фішер (після деяких початкових результатів Френсіса Ісидро Еджворта). Інформаційну матрицю за Фішером використовують для обчислення коваріаційних матриць, пов'язаних із оцінюванням максимальною правдоподібністю. Також її використовують у формулюванні статистичних критеріїв, як-от тесту Вальда(інші мови).

У баєсовій статистиці інформація за Фішером відіграє роль у виведенні неінформативних апріорних розподілів за правилом Джеффріса(інші мови).[2] Вона також з'являється як великови́біркова коваріація апостеріорного розподілу, за умови, що апріорний розподіл є достатньо гладеньким (результат, відомий як теорема Бернштайна — фон Мізеса(інші мови), передбачена Лапласом для експоненційних сімейств(інші мови)).[3] Той же результат використовують при наближуванні апостеріорного розподілу за допомогою лапласового наближення(інші мови), де інформація за Фішером виступає як коваріація допасовуваного гауссового розподілу.[4]

Було показано, що статистичні системи наукового характеру (фізичні, біологічні тощо), чиї функції правдоподібності дотримуються інваріантності щодо зміщення(інші мови), показують максимум інформації за Фішером.[5] Рівень цього максимуму залежить від характеру обмежень системи.

Визначення

ред.

Інформація за Фішером — це спосіб вимірювання кількості інформації, яку спостережувана випадкова величина   несе про невідомий параметр  , від якого залежить імовірність  . Нехай   — функція густини імовірності (або функція маси імовірності) для  , обумовлена значенням  . Вона описує ймовірність спостерігання заданого результату   за умови відомого значення  . Якщо   дає гострий пік відносно змін  , то вказати «правильне» значення   з даних легко, або, іншими словами, дані   містять багато інформації про параметр  . Якщо ж   пло́ска й розсіяна, тоді потрібно багато зразків  , щоб оцінити справжнє «істинне» значення  , яке могло би бути отримане з використанням усієї сукупності, з якої роблять вибірку. Це вказує на необхідність вивчення певного виду дисперсії відносно  .

Формально частинну похідну за   натурального логарифму функції правдоподібності називають внеском (англ. score). За певних умов регулярності, якщо   — істинний параметр (тобто   справді розподілено як  ), можливо показати, що математичне сподівання (перший момент) внеску, обчислене за істинного значення параметра  , дорівнює 0:[6]

 

Інформацію за Фішером визначають як дисперсію внеску:[7]

 

зауважте, що  . Випадкова величина, що несе високу інформацію за Фішером, вказує на те, що абсолютне значення внеску часто високе. Інформація за Фішером не є функцією конкретного спостереження, оскільки випадкову величину X було усереднено.

Якщо log f(x; θ) двічі диференційовний за θ, і за певних умов регулярності, то інформацію за Фішером також можна записати як[8]

 

оскільки

 

і

 

Отже, інформацію за Фішером можна розглядати як кривину кривої підтримки(інші мови) (англ. support curve, графіка логарифмічної правдоподібності). Поруч із оцінкою максимальною правдоподібністю, низька інформація за Фішером вказує на те, що максимум виглядає «тупим», тобто максимум неглибокий і багато сусідніх значень мають схожу логарифмічну правдоподібність. І, навпаки, висока інформація за Фішером вказує на те, що максимум гострий.

Умови регулярності

ред.

Умови регулярності такі:[9]

  1. Частинна похідна f(X; θ) за θ існує майже скрізь. (Вона може не існувати на нульовій множині, за умови, що ця множина не залежить від θ.)
  2. Інтеграл f(X; θ) можливо диференціювати під знаком інтеграла за θ.
  3. Носій f(X; θ) не залежить від θ.

Якщо θ — вектор, то умови регулярності мусять виконуватися для кожного компонента θ. Приклад густини, яка не задовольняє умови регулярності, знайти легко: густина рівномірної змінної Uniform(0, θ) не виконує умов 1 та 3. У цьому випадку, незважаючи на можливість обчислення інформації за Фішером за визначенням, вона не матиме властивостей, які зазвичай передбачаються.

В термінах правдоподібності

ред.

Оскільки правдоподібність θ для заданої X завжди пропорційна ймовірності f(X; θ), їхні логарифми обов'язково відрізняються на сталу, яка не залежить від θ, а похідні цих логарифмів за θ обов'язково рівні. Таким чином, до визначення інформації за Фішером замість log f(X; θ) можливо підставити функцію логарифмічної правдоподібності l(θ; X).

Вибірки будь-якого розміру

ред.

Значення X може подавати як один зразок, вибраний з одного розподілу, так і набір зразків, вибраних з набору розподілів. Якщо є n зразків, і відповідні n розподілів статистично незалежні, то інформація за Фішером обов'язково буде сумою значень інформації за Фішером для кожного окремого зразка з його розподілу. Зокрема, якщо ці n розподілів незалежні й однаково розподілені, то інформація за Фішером обов'язково становитиме n разів інформації за Фішером для одного зразка з загального розподілу. Іншими словами, інформація за Фішером н. о. р. спостережень вибірки розміру n із сукупності дорівнює добуткові n на інформацію за Фішером для одного спостереження з цієї ж сукупності.

Неформальний вивід межі Крамера — Рао

ред.

Нерівність Крамера — Рао[10][11] стверджує, що обернена величина інформації за Фішером є нижньою межею дисперсії будь-якого незміщеного оцінювача θ. Van Trees, (1968) та Frieden, (2004) пропонують наступний метод виведення межі Крамера — Рао, результат, який описує застосування інформації за Фішером.

Неформально, почнімо з розгляду незміщеного оцінювача  . Математично «незміщеність» означає, що

  незалежно від значення  

Цей вираз нульовий незалежно від θ, тож його частинна похідна за θ також мусить бути нульовою. За правилом добутку ця частинна похідна також дорівнює

 

Для кожного значення θ функція правдоподібності є функцією густини ймовірності, отже,  . Використовуючи ланцюгове правило для частинної похідної  , а потім ділячи й множачи на  , можливо перевірити, що

 

Використовуючи ці два факти в наведеному вище виразі, отримуємо

 

Розкладання підінтегрального виразу на множники дає

 

При піднесенні виразу в інтегралі до квадрату нерівність Коші — Буняковського дає

 

Другий множник у дужках визначається як інформація за Фішером, а перший множник є середньоквадратичною похибкою оцінювача  . За перетворення, ця нерівність каже нам, що

 

Іншими словами, точність можливої оцінки параметра θ принципово обмежена інформацією за Фішером функції правдоподібності.

Іншим чином той же висновок можливо отримати безпосередньо з нерівності Коші — Буняковського для випадкових величин(інші мови)  , застосувавши її до випадкових величин   та  , і побачивши, що для незміщених оцінювачів маємо 

Приклади

ред.

Однопараметровий експеримент Бернуллі

ред.

Проба Бернуллі — це випадкова величина з двома можливими результатами: 0 та 1, де 1 має ймовірність θ. Цей результат можливо розглядати як підкидання несиметричної монети, де ймовірність випадіння аверса (1) дорівнює θ, а ймовірність випадіння реверса (0) — 1 − θ.

Нехай X — проба Бернуллі однієї вибірки з розподілу. Інформацію за Фішером, яка міститься в X, можна обчислити як

 

Оскільки інформація за Фішером адитивна, інформація за Фішером для n незалежних випробувань Бернуллі становить

 

Якщо   — один з   можливих результатів n незалежних випробувань Бернуллі, а   — j-й результат i-го випробування, то ймовірність   задається як

 

Середнє значення i-го випробування становить   Математичне сподівання середнього значення випробування:

 

де сума береться по всіх   можливих результатах випробувань. Математичне сподівання квадрата середнього:

 

тож дисперсія значення середнього становить

 

Видно, що інформація за Фішером є оберненою величиною дисперсії середнього числа успіхів у n випробуваннях Бернуллі. Це правило є загальним. У цьому випадку нерівність Крамера — Рао є рівністю.

Оцінка θ за X ∼ Bern (√θ)

ред.

Як інший модельний приклад розгляньмо випадкову величину   з можливими результатами 0 та 1 з імовірностями   та   відповідно, для деякого  . Наша мета — оцінити   зі спостережень  .

Інформація за Фішером для цього випадку виглядає як Цей вираз також можливо вивести безпосередньо перепараметруванням наведеної нижче формули. Загальніше, для будь-якої достатньо регулярної функції  , такої, що  , інформація за Фішером для оцінки   за   обчислюється аналогічно: 

Матричний вигляд

ред.

Коли параметрів N, тобто θ — вектор N × 1,   тоді інформація за Фішером набуває вигляду матриці N × N. Цю матрицю називають інформаці́йною ма́трицею за Фі́шером (ІМФ, англ. Fisher information matrix, FIM), і її типовий елемент

 

ІМФ — додатно напіввизначена матриця N × N. Якщо вона додатно визначена, то вона визначає ріманову метрику[12] на N-вимірному просторі параметрів(інші мови). Галузь інформаційної геометрії(інші мови) використовує це для поєднання інформації за Фішером з диференціальною геометрією, і в цьому контексті ця метрика відома як фішерова інформаційна метрика(інші мови).

За певних умов регулярності інформаційну матрицю за Фішером можна також записати як

 

Цей результат цікавий з кількох причин:

  • Його можливо вивести як матрицю Гессе відносної ентропії.
  • Його можливо використовувати як ріманову метрику для визначення геометрії Фішера — Рао, коли він додатно визначений.[13]
  • Його можливо розуміти як метрику, індуковану з евклідової метрики, після відповідної заміни змінної.
  • У комплекснозначному вигляді це метрика Фубіні — Штуді.
  • Він є ключовою частиною доведення теореми Уїлкса, яка дозволяє оцінювати довірчі області для оцінювання максимальною правдоподібністю (для тих умов, для яких це застосовно), не потребуючи принципу правдоподібності.
  • У випадках, коли наведені вище аналітичні обчислення ІМФ складні, можливо робити усереднення простих оцінок Монте-Карло матриці Гессе від'ємної функції логарифмічної правдоподібності як оцінку ІМФ.[14][15][16] Ці оцінки можуть ґрунтуватися на значеннях від'ємної функції логарифмічної правдоподібності або її градієнті; аналітичне обчислення матриці Гессе від'ємної функції логарифмічної правдоподібності не потрібне.

Інформаційно ортогональні параметри

ред.

Кажуть, що два вектори компонент параметрів θ1 та θ2 інформаційно ортогональні (англ. information orthogonal), якщо інформаційна матриця за Фішером блочно-діагональна з цими компонентами в окремих блоках.[17] Ортогональні параметри зручні тим, що їхні оцінки максимальною правдоподібністю асимптотично некорельовані. Коли йдеться про аналіз статистичної моделі, варто витратити певний час на пошук ортогонального параметрування моделі, особливо коли цільовий параметр одновимірний, але завадний параметр може мати будь-яку вимірність.[18]

Сингулярна статистична модель

ред.

Якщо інформаційна матриця за Фішером додатно визначена для всіх значень θ, то відповідну статистичну модель називають регулярною (англ. regular); інакше модель називають сингулярною (англ. singular).[19] До прикладів сингулярних статистичних моделей належать: гауссові суміші(інші мови), біноміальні суміші, багатовимірні суміші, баєсові мережі, нейронні мережі, радіальні базисні функції, приховані марковські моделі, стохастичні контекстовільні граматики(інші мови), регресії зі зменшеним рангом (англ. reduced rank regressions), машини Больцмана.

У машинному навчанні, якщо статистичну модель розроблено так, що вона витягує приховану структуру з випадкового явища, то вона природно стає сингулярною.[20]

Багатовимірний нормальний розподіл

ред.

ІМФ для N-вимірного багатовимірного нормального розподілу   має особливий вигляд. Нехай K-вимірний вектор параметрів це  , а вектор випадкових нормальних величин це  . Припустімо, що середні значення цих випадкових величин це  , а   — коваріаційна матриця. Тоді, для  , елемент (m, n) ІМФ дорівнює:[21]

 

де   позначує транспонування вектора,   позначує слід квадратної матриці, а

 

Зауважте, що особливим, але дуже поширеним випадком є такий, коли  , стала. Тоді

 

У цьому випадку інформаційну матрицю за Фішером можна ототожнити з матрицею коефіцієнтів нормальних рівнянь(інші мови) теорії найменших квадратів.

Інший особливий випадок виникає, коли середнє та коваріація залежать від двох різних векторних параметрів, скажімо, β та θ. Це особливо популярне в аналізі просторових даних, де часто використовують лінійну модель з корельованими залишками. У такому випадку[22]

 

де

 

Властивості

ред.

Ланцюгове правило

ред.

Подібно до ентропії та взаємної інформації, інформація за Фішером також має розклад за ланцюго́вим пра́вилом (англ. chain rule). Зокрема, якщо X та Y — спільно розподілені випадкові величини, то має місце наступне:[23]

 

де  , а   — це інформація за Фішером Y щодо  , обчислена за умовною густиною Y за заданого значення X = x.

Як окремий випадок, якщо дві випадкові величини незалежні, то інформація, яку вони дають, є сумою інформації від кожної з випадкових величин окремо:

 

Отже, інформація у вибірці з n незалежних однаково розподілених спостережень дорівнює n-кратній інформації для вибірки розміру 1.

f-розходження

ред.

Якщо задано опуклу функцію  , таку, що   скінченна для всіх  ,  , а   (яка може бути нескінченною), вона визначає f-розбіжність  . Якщо   строго опукла в  , а потім локально в  , інформаційна матриця за Фішером є метрикою, в тому сенсі що[24] де   — розподіл, параметрований  , тобто розподіл з функцією густини ймовірності  .

У такій формі видно, що інформаційна матриця за Фішером є рімановою метрикою і правильно змінюється за зміни змінних. (див. розділ про перепараметрування.)

Достатня статистика

ред.

Інформація, яку надає достатня статистика, є такою ж, як і інформація вибірки X. Це можна побачити, використовуючи критерій розкладу Неймана для достатньої статистики. Якщо T(X) достатня для θ, то

 

для деяких функцій g та h. З незалежності h(X) від θ випливає, що

 

а рівність інформації випливає з визначення інформації за Фішером. Загальніше, якщо T = t(X) — статистика, то

 

і рівність виконується тоді й лише тоді, коли T — достатня статистика.[25]

Перепараметрування

ред.

Інформація за Фішером залежить від параметрування задачі. Якщо θ та η — два скалярні параметрування задачі оцінювання, і θ — неперервно диференційовна функція від η, то

 

де   та   — інформаційні міри за Фішером для η та θ відповідно.[26]

У випадку векторів, нехай   та   — k-вектори, які параметрують задачу оцінювання, і нехай   — неперервно диференційовна функція від  , тоді[27]

 

де елемент (i, j) матриці Якобі k × k   визначається як

 

і де   — транспонована матриця  .

В інформаційній геометрії(інші мови) це розглядають як зміну координат на рімановому многовиді, і внутрішні властивості кривини залишаються незмінними за різних параметрувань. Загалом, інформаційна матриця за Фішером забезпечує ріманову метрику (точніше, метрику Фішера — Рао) для многовиду термодинамічних станів і її можливо використовувати як міру інформаційно-геометричної складності для класифікації фазових переходів, наприклад, скалярна кривина тензора термодинамічної метрики розбігається в точці фазового переходу (і лише там).[28]

У термодинамічному контексті інформаційна матриця за Фішером безпосередньо пов'язана з темпом зміни відповідних параметрів порядку.[29] Зокрема, такі зв'язки дозволяють виявляти фазові переходи другого порядку через розбіжність окремих елементів інформаційної матриці за Фішером.

Ізопериметрична нерівність

ред.

Інформаційна матриця за Фішером відіграє роль у нерівності, подібній до ізопериметричної нерівності.[30] Серед усіх імовірнісних розподілів із заданою ентропією, той, чия інформаційна матриця за Фішером має найменший слід, є гауссовим розподілом. Це подібно до того, як серед усіх обмежених множин із заданим об'ємом найменшу площу поверхні має сфера.

Доведення містить взяття багатовимірної випадкової величини   з функцією густини   і додавання параметра положення для утворення сімейства густин  . Тоді, за аналогією з формулою Мінковського — Штайнера(інші мови), «площа поверхні»   визначається як

 

де   — гауссова змінна з коваріаційною матрицею  . Назва «площа поверхні» підходить, оскільки ентропійна потужність   є об'ємом «ефективної опорної множини»,[31] тому   є «похідною» від об'єму ефективної опорної множини, подібно до формули Мінковського — Штайнера. Решта доведення використовує нерівність ентропійної потужності(інші мови), яка подібна до нерівності Брунна — Мінковського(інші мови). Слід інформаційної матриці за Фішером виявляється пропорційним  .

Застосування

ред.

Оптимальне планування експериментів

ред.

Інформацію за Фішером широко використовують в оптимальному плануванні експериментів. Через взаємозв'язок дисперсії оцінювача та інформації за Фішером мінімізування цієї дисперсії відповідає максимізуванню цієї інформації.

Коли лінійна (або злінеаризована(інші мови)) статистична модель містить декілька параметрів, середнє оцінювача цих параметрів є вектором, а його дисперсія — матрицею. Обернення матриці дисперсій називають «інформаційною матрицею» (англ. "information matrix"). Оскільки дисперсія оцінювача вектору параметрів — матриця, задача «мінімізування дисперсії» ускладнюється. За допомогою теорії статистики статистики стискають інформаційну матрицю до дійснозначних зведених статистик; як дійснозначні функції, ці «інформаційні критерії» можливо максимізувати.

Традиційно статистики оцінювали оцінювачі та плани експериментів за допомогою певної зведеної статистики коваріаційної матриці (незміщеного оцінювача), зазвичай із додатними дійсними значеннями (на кшталт визначника або сліду матриці). Робота з додатними дійсними числами має кілька переваг: якщо оцінювач одного параметра має додатну дисперсію, то дисперсія та інформація за Фішером є додатними дійсними числами; отже, вони є елементами опуклого конуса невід'ємних дійсних чисел (ненульові елементи якого мають обернені значення в цьому ж конусі).

Для декількох параметрів коваріаційні та інформаційні матриці є елементами опуклого конуса невід'ємно визначених симетричних матриць у частково впорядкованому векторному просторі(інші мови) з порядком Льовнера(інші мови). Цей конус замкнений щодо додавання та обернення матриць, а також щодо множення додатних дійсних чисел і матриць. Огляд теорії матриць і порядку Льовнера наведено у праці Пукельсгайма.[32]

Традиційні критерії оптимальності є інваріантами інформаційної матриці в сенсі теорії інваріантів; алгебрично, традиційні критерії оптимальності є функціоналами власних значень (фішерової) інформаційної матриці (див. оптимальне планування).

Апріорний розподіл Джеффріса в баєсовій статистиці

ред.

У баєсовій статистиці інформацію за Фішером використовують для обчислення апріорного розподілу Джеффріса(інші мови), стандартного неінформативного апріорного розподілу для параметрів неперервних розподілів.[33]

Обчислювальна нейронаука

ред.

Інформацію за Фішером використовували для знаходження меж точності нейронних кодів. У цьому випадку X зазвичай є спільними відгуками багатьох нейронів, які подають низьковимірну змінну θ (як-от параметр стимулу(інші мови)). Зокрема, досліджували роль кореляцій у шумі нейронних відгуків.[34]

Епідеміологія

ред.

Інформацію за Фішером використовували для дослідження інформативності різних джерел даних для оцінки репродукційного числа SARS-CoV-2.[35]

Виведення фізичних законів

ред.

Інформація за Фішером відіграє центральну роль у суперечливому принципі, висунутому Фріденом(інші мови) як основа фізичних законів, що є предметом дискусій.[36]

Машинне навчання

ред.

Інформацію за Фішером використовують у методиках машинного навчання, таких як еластичне закріплювання ваг(інші мови),[37] які знижують катастрофічне забування(інші мови) у штучних нейронних мережах.

Інформацію за Фішером можливо використовувати як альтернативу матриці Гессе функції втрат у тренуванні мереж градієнтним спуском другого порядку.[38]

Розрізнення кольорів

ред.

Використовуючи фішерову інформаційну метрику(інші мови), да Фонсека та ін.[39] досліджували, наскільки еліпси МакАдама(інші мови) (еліпси розрізнення кольорів) можливо вивести з функцій відгуку(інші мови) фоторецепторів сітківки.

Зв'язок із відносною ентропією

ред.

Інформація за Фішером пов'язана з відносною ентропією.[40] Відносну ентропію, або розходження Кульбака — Лейблера, між двома розподілами   та   можливо записати як

 

Тепер розгляньмо сімейство ймовірнісних розподілів  , параметрованих  . Тоді розходження Кульбака — Лейблера між двома розподілами в цьому сімействі можливо записати як

 

Якщо параметр   незмінний, то відносна ентропія між двома розподілами з того ж сімейства мінімізується при  . Для значень  , близьких до  , попередній вираз можна розкласти в ряд до другого порядку:

 

Але другу похідну можливо записати як

 

Тож інформація за Фішером подає кривину відносної ентропії умовного розподілу відносно його параметрів.

Історія

ред.

Інформацію за Фішером обговорювали кілька ранніх статистиків, зокрема Ф. І. Еджворт.[41] Наприклад, Севідж[42] пише: «У ній [інформації за Фішером] його [Фішера] певною мірою передбачили (Еджворт 1908–9, особливо стор. 502, 507–8, 662, 677–8, 82–5 і посилання, які він [Еджворт] наводить, включно з Пірсоном і Філоном 1898 [. . .])». Існує кілька ранніх історичних джерел[43] і кілька оглядів цієї ранньої роботи.[44][45][46]

Див. також

ред.

Інші міри, які використовують у теорії інформації:

Примітки

ред.
  1. Lehmann та Casella, (1998), с. 115.
  2. Robert, Christian (2007). Noninformative prior distributions. The Bayesian Choice (англ.) (вид. 2nd). Springer. с. 127—141. ISBN 978-0-387-71598-8.
  3. Le Cam, Lucien (1986). Asymptotic Methods in Statistical Decision Theory (англ.). New York: Springer. с. 618—621. ISBN 0-387-96307-3.
  4. Kass, Robert E.; Tierney, Luke; Kadane, Joseph B. (1990). The Validity of Posterior Expansions Based on Laplace's Method. У Geisser, S.; Hodges, J. S.; Press, S. J.; Zellner, A. (ред.). Bayesian and Likelihood Methods in Statistics and Econometrics (англ.). Elsevier. с. 473—488. ISBN 0-444-88376-2.
  5. Frieden та Gatenby, (2013).
  6. Suba Rao. Lectures on statistical inference (PDF) (англ.). Архів оригіналу (PDF) за 26 вересня 2020. Процитовано 12 квітня 2013. [Архівовано 2020-09-26 у Wayback Machine.]
  7. Fisher, (1922).
  8. Lehmann та Casella, (1998), рівняння (2.5.16), лема 5.3, с. 116.
  9. Schervish, Mark J. (1995). Theory of Statistics (англ.). New York, NY: Springer New York. с. 111. ISBN 978-1-4612-4250-5. OCLC 852790658.
  10. Cramér, (1946).
  11. Rao, (1945).
  12. Nielsen, Frank (2023). A Simple Approximation Method for the Fisher–Rao Distance between Multivariate Normal Distributions. Entropy (англ.). 25 (4): 654. arXiv:2302.08175. Bibcode:2023Entrp..25..654N. doi:10.3390/e25040654. PMC 10137715. PMID 37190442.
  13. Nielsen, Frank (2013). Cramér-Rao Lower Bound and Information Geometry. Connected at Infinity II. Texts and Readings in Mathematics (англ.). Т. 67. с. 18—37. arXiv:1301.3578. doi:10.1007/978-93-86279-56-9_2. ISBN 978-93-80250-51-9. S2CID 16759683.
  14. Spall, J. C. (2005). Monte Carlo Computation of the Fisher Information Matrix in Nonstandard Settings. Journal of Computational and Graphical Statistics (англ.). 14 (4): 889—909. doi:10.1198/106186005X78800. S2CID 16090098.
  15. Spall, J. C. (2008), "Improved Methods for Monte Carlo Estimation of the Fisher Information Matrix," Proceedings of the American Control Conference (англ.), Seattle, WA, 11–13 June 2008, pp. 2395–2400. https://doi.org/10.1109/ACC.2008.4586850
  16. Das, S.; Spall, J. C.; Ghanem, R. (2010). Efficient Monte Carlo Computation of Fisher Information Matrix Using Prior Information. Computational Statistics and Data Analysis (англ.). 54 (2): 272—289. doi:10.1016/j.csda.2009.09.018.
  17. Barndorff-Nielsen, O. E.; Cox, D. R. (1994). Inference and Asymptotics (англ.). Chapman & Hall. ISBN 9780412494406.
  18. Cox, D. R.; Reid, N. (1987). Parameter orthogonality and approximate conditional inference (with discussion). J. Royal Statistical Soc. B (англ.). 49: 1—39. doi:10.1111/j.2517-6161.1987.tb01422.x.
  19. Watanabe, S. (2008), Accardi, L.; Freudenberg, W.; Ohya, M. (ред.), Algebraic geometrical method in singular statistical estimation, Quantum Bio-Informatics (англ.), World Scientific: 325—336, Bibcode:2008qbi..conf..325W, doi:10.1142/9789812793171_0024, ISBN 978-981-279-316-4.
  20. Watanabe, S (2013). A Widely Applicable Bayesian Information Criterion. Journal of Machine Learning Research (англ.). 14: 867—897.
  21. Malagò, Luigi; Pistone, Giovanni (2015). Information Geometry of the Gaussian Distribution in View of Stochastic Optimization. Proceedings of the 2015 ACM Conference on Foundations of Genetic Algorithms XIII (англ.). с. 150—162. doi:10.1145/2725494.2725510. ISBN 9781450334341. S2CID 693896.
  22. Mardia, K. V.; Marshall, R. J. (1984). Maximum likelihood estimation of models for residual covariance in spatial regression. Biometrika(інші мови) (англ.). 71 (1): 135—46. doi:10.1093/biomet/71.1.135.
  23. Zamir, R. (1998). A proof of the Fisher information inequality via a data processing argument. IEEE Transactions on Information Theory(інші мови) (англ.). 44 (3): 1246—1250. CiteSeerX 10.1.1.49.6628. doi:10.1109/18.669301.
  24. Polyanskiy, Yury (2017). Lecture notes on information theory, chapter 29, ECE563 (UIUC) (PDF). Lecture notes on information theory (англ.). Архів (PDF) оригіналу за 24 травня 2022. Процитовано 24 травня 2022.
  25. Schervish, Mark J. (1995). Theory of Statistics (англ.). Springer-Verlag. с. 113.
  26. Lehmann та Casella, (1998), рівняння (2.5.11).
  27. Lehmann та Casella, (1998), рівняння (2.6.16).
  28. Janke, W.; Johnston, D. A.; Kenna, R. (2004). Information Geometry and Phase Transitions. Physica A (англ.). 336 (1–2): 181. arXiv:cond-mat/0401092. Bibcode:2004PhyA..336..181J. doi:10.1016/j.physa.2004.01.023. S2CID 119085942.
  29. Prokopenko, M.; Lizier, Joseph T.; Lizier, J. T.; Obst, O.; Wang, X. R. (2011). Relating Fisher information to order parameters. Physical Review E (англ.). 84 (4): 041116. Bibcode:2011PhRvE..84d1116P. doi:10.1103/PhysRevE.84.041116. PMID 22181096. S2CID 18366894.
  30. Costa, M.; Cover, T. (Nov 1984). On the similarity of the entropy power inequality and the Brunn-Minkowski inequality. IEEE Transactions on Information Theory (англ.). 30 (6): 837—839. doi:10.1109/TIT.1984.1056983. ISSN 1557-9654.
  31. Cover, Thomas M. (2006). Elements of information theory (англ.). Joy A. Thomas (вид. 2nd). Hoboken, N.J.: Wiley-Interscience. с. 256. ISBN 0-471-24195-4. OCLC 59879802.
  32. Pukelsheim, Friedrich (1993). Optimal Design of Experiments (англ.). New York: Wiley. ISBN 978-0-471-61971-0.
  33. Bernardo, Jose M.; Smith, Adrian F. M. (1994). Bayesian Theory (англ.). New York: John Wiley & Sons. ISBN 978-0-471-92416-6.
  34. Abbott, Larry F.; Dayan, Peter (1999). The effect of correlated variability on the accuracy of a population code. Neural Computation (англ.). 11 (1): 91—101. doi:10.1162/089976699300016827. PMID 9950724. S2CID 2958438.
  35. Parag, K.V.; Donnelly, C.A.; Zarebski, A.E. (2022). Quantifying the information in noisy epidemic curves. Nature Computational Science (англ.). 2 (9): 584—594. doi:10.1038/s43588-022-00313-1. hdl:10044/1/100205. PMID 38177483. S2CID 248811793.
  36. Streater, R. F. (2007). Lost Causes in and beyond Physics (англ.). Springer. с. 69. ISBN 978-3-540-36581-5.
  37. Kirkpatrick, James; Pascanu, Razvan; Rabinowitz, Neil; Veness, Joel; Desjardins, Guillaume; Rusu, Andrei A.; Milan, Kieran; Quan, John; Ramalho, Tiago (28 березня 2017). Overcoming catastrophic forgetting in neural networks. Proceedings of the National Academy of Sciences (англ.). 114 (13): 3521—3526. arXiv:1612.00796. Bibcode:2017PNAS..114.3521K. doi:10.1073/pnas.1611835114. ISSN 0027-8424. PMC 5380101. PMID 28292907.
  38. Martens, James (August 2020). New Insights and Perspectives on the Natural Gradient Method. Journal of Machine Learning Research (англ.) (21). arXiv:1412.1193.
  39. da Fonseca, Maria; Samengo, In´es (1 грудня 2016). Derivation of human chromatic discrimination ability from an information-theoretical notion of distance in color space. Neural Computation (англ.). 28 (12): 2628—2655. arXiv:1611.07272. doi:10.1162/NECO_a_00903.
  40. Gourieroux & Montfort (1995), page 87 (англ.)
  41. Savage, (1976).
  42. Savage, (1976), с. 156.
  43. Edgeworth, (1908b); Edgeworth, (1908c).
  44. Pratt, (1976).
  45. Stigler, (1978); Stigler, (1986); Stigler, (1999).
  46. Hald, (1998); Hald, (1999).

Джерела

ред.