Взаємна інформація

У теорії ймовірностей та теорії інформації взає́мна інформа́ція (англ. mutual information, MI) двох випадкових змінних — це міра взаємної залежності між цими двома змінними. Конкретніше, вона визначає «кількість інформації» (в таких одиницях, як шеннони, що зазвичай називають бітами), отримуваної про одну випадкову змінну через спостерігання іншої випадкової змінної. Поняття взаємної інформації нерозривно пов'язане з ентропією випадкової змінної, фундаментальним поняттям теорії інформації, яке кількісно оцінює очікувану «кількість інформації», що міститься у випадковій змінній.

Діаграма Венна, що показує адитивні та різницеві відношення різних мір інформації, пов'язаних із корельованими змінними $X$ та $Y$ . Область, яка міститься в обох колах, є спільною ентропією $\mathrm {H} (X,Y)$ . Коло ліворуч (червоний і фіолетовий) є особистою ентропією $\mathrm {H} (X)$ , в якому червоне є умовною ентропією $\mathrm {H} (X|Y)$ . Коло праворуч (синій та фіолетовий) є $\mathrm {H} (Y)$ , а синє в ньому є $\mathrm {H} (Y|X)$ . Фіолетове є **взаємною інформацією** $\operatorname {I} (X;Y)$ .

Не обмежуючись, як коефіцієнт кореляції, дійснозначними випадковими змінними, взаємна інформація є загальнішою, і визначає, наскільки подібним є спільний розподіл $p(x,y)$ до добутків розкладених відособлених розподілів $p(x)\cdot p(y)$ . Взаємна інформація — це математичне сподівання поточкової взаємної інформації (англ. pointwise mutual information, PMI).

Визначення

Формально взаємну інформацію двох дискретних випадкових змінних $X$ та $Y$ може бути визначено як^[1]^:20

\operatorname {I} (X;Y)=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}},

де $p(x,y)$ є функцією спільного розподілу ймовірностей $X$ та $Y$ , а $p(x)$ та $p(y)$ є функціями відособлених розподілів імовірності $X$ та $Y$ відповідно.

У випадку неперервних випадкових змінних підсумовування замінюється визначеним подвійним інтегралом:^[1]^:251

\operatorname {I} (X;Y)=\int _{\mathcal {Y}}\int _{\mathcal {X}}{p(x,y)\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}}\;dx\,dy,

де $p(x,y)$ тепер є функцією густини спільної ймовірності $X$ та $Y$ , а $p(x)$ та $p(y)$ є функціями густини відособлених імовірностей $X$ та $Y$ відповідно.

Якщо застосовується логарифм за основою 2, то одиницею вимірювання взаємної інформації є біт.

Обґрунтування

Інтуїтивно, взаємна інформація вимірює інформацію, яку поділяють $X$ та $Y$ : вона вимірює, наскільки знання однієї з цих змінних зменшує невизначеність щодо іншої. Наприклад, якщо $X$ та $Y$ є незалежними, то знання $X$ не дає жодної інформації про $Y$ , і навпаки, тому їхня взаємна інформація дорівнює нулеві. З іншого боку, якщо $X$ є детермінованою функцією від $Y$ , і $Y$ є детермінованою функцією від $X$ , то вся інформація, що передає змінна $X$ , є спільною з $Y$ : знання $X$ визначає значення $Y$ , і навпаки. В результаті, в цьому випадку взаємна інформація є тим же, що й невизначеність, яка міститься окремо в $Y$ (або $X$ ), а саме ентропія $Y$ (або $X$ ). Більше того, ця взаємна інформація і є такою ж, як і ентропія $X$ та як ентропія $Y$ . (Дуже особливим випадком цього є такий, коли $X$ та $Y$ є однією й тією ж випадковою змінною.)

Взаємна інформація є мірою притаманної залежності, вираженої в спільному розподілі $X$ та $Y$ , по відношенню до спільного розподілу $X$ та $Y$ за припущення незалежності. Взаємна інформація відтак вимірює залежність у наступному сенсі: $\operatorname {I} (X;Y)=0$ , якщо і лише якщо $X$ та $Y$ є незалежними випадковими змінними. Це легко побачити в одному напрямку: якщо $X$ та $Y$ є незалежними, то $p(x,y)=p(x)\cdot p(y)$ , і тому

\log {\left({\frac {p(x,y)}{p(x)\,p(y)}}\right)}=\log 1=0.

Крім того, взаємна інформація є невід'ємною (тобто, $\operatorname {I} (X;Y)\geq 0$ , див. нижче) і симетричною (тобто, $\operatorname {I} (X;Y)=\operatorname {I} (Y;X)$ , див. нижче).

Відношення до інших величин

Невід'ємність

Застосувавши нерівність Єнсена до визначення взаємної інформації, ми можемо показати, що $\operatorname {I} (X;Y)$ є невід'ємною, тобто,^[1]^:28

\operatorname {I} (X;Y)\geq 0

Симетричність

\operatorname {I} (X;Y)=\operatorname {I} (Y;X)

Відношення до умовної та спільної ентропій

Взаємну інформацію може бути рівнозначно виражено як

{\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X|Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y|X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X|Y)-\mathrm {H} (Y|X)\end{aligned}}

де $\mathrm {H} (X)$ та $\mathrm {H} (Y)$ є відособленими ентропіями, $\mathrm {H} (X|Y)$ та $\mathrm {H} (Y|X)$ є умовними ентропіями, а $\mathrm {H} (X,Y)$ є спільною ентропією $X$ та $Y$ . Зверніть увагу на аналогію з об'єднанням, різницею та перетином двох множин, яку показано в діаграмі Венна. В термінах каналу зв'язку, в якому вихід $Y$ є зашумленою версією входу $X$ , ці відношення узагальнено на малюнку нижче.

Відношення між величинами теорії інформації

Оскільки $\operatorname {I} (X;Y)$ є невід'ємною, як наслідок, $\mathrm {H} (X)\geq \mathrm {H} (X|Y)$ . Тут ми наводимо докладне виведення $\operatorname {I} (X;Y)=\mathrm {H} (Y)-\mathrm {H} (Y|X)$ :

{\begin{aligned}\operatorname {I} (X;Y)&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)p(y)}}\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log {\frac {p(x,y)}{p(x)}}-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log p(y)\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x)p(y|x)\log p(y|x)-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p(x,y)\log p(y)\\&{}=\sum _{x\in {\mathcal {X}}}p(x)\left(\sum _{y\in {\mathcal {Y}}}p(y|x)\log p(y|x)\right)-\sum _{y\in {\mathcal {Y}}}\left(\sum _{x}p(x,y)\right)\log p(y)\\&{}=-\sum _{x\in {\mathcal {X}}}p(x)\mathrm {H} (Y|X=x)-\sum _{y\in {\mathcal {Y}}}p(y)\log p(y)\\&{}=-\mathrm {H} (Y|X)+\mathrm {H} (Y)\\&{}=\mathrm {H} (Y)-\mathrm {H} (Y|X).\\\end{aligned}}

Доведення інших наведених вище тотожностей є схожими на це.

Інтуїтивно, якщо ентропію $\mathrm {H} (Y)$ розглядати як міру невизначеності випадкової змінної, то $\mathrm {H} (Y|X)$ є мірою того, що $X$ не каже про $Y$ . Це є «кількістю невизначеності $Y$ , яка залишається після того, як стала відомою $X$ », і, отже, праву частину другого з цих рівнянь можливо читати як «кількість невизначеності $Y$ за вирахуванням кількості невизначеності $Y$ , яка залишається після того, як стала відомою $X$ », що рівнозначно «кількість невизначеності $Y$ , яка усувається, коли стає відомою $X$ ». Це підтримує інтуїтивне значення взаємної інформації як кількості інформації (тобто, зниження невизначеності), яке знання однієї з змінних забезпечує стосовно іншої.

Зауважте, що в дискретному випадку $\mathrm {H} (X|X)=0$ і, отже, $\mathrm {H} (X)=\operatorname {I} (X;X)$ . Таким чином, $\operatorname {I} (X;X)\geq \operatorname {I} (X;Y)$ , і можна сформулювати основний принцип, що змінна містить про себе щонайменше стільки ж інформації, скільки могла би забезпечити будь-яка інша змінна. Це відповідає подібним пов'язаним результатам.

Відношення до відстані Кульбака — Лейблера

Взаємну інформацію також може бути виражено як відстань Кульбака — Лейблера добутку $p(x)\cdot p(y)$ відособлених розподілів двох випадкових змінних $X$ та $Y$ від спільного розподілу цих випадкових змінних $p(x,y)$ :

\operatorname {I} (X;Y)=D_{\text{KL}}\left(p(x,y)\parallel p(x)p(y)\right).

Крім того, нехай $p(x|y)=p(x,y)/p(y)$ . Тоді

{\begin{aligned}\operatorname {I} (X;Y)&=\sum _{y\in {\mathcal {Y}}}p(y)\sum _{x\in {\mathcal {X}}}p(x|y)\log _{2}{\frac {p(x|y)}{p(x)}}\\&=\sum _{y\in {\mathcal {Y}}}p(y)\;D_{\text{KL}}\!\left(p(x|y)\parallel p(x)\right)\\&=\mathbb {E} _{Y}\left[D_{\text{KL}}\!\left(p(x|y)\parallel p(x)\right)\right].\end{aligned}}

Зауважте, що тут відстань Кульбака — Лейблера передбачає інтегрування лише за випадковою змінною $X$ , і вираз $D_{\text{KL}}(p(x|y)\parallel p(x))$ тепер є випадковою змінною в $Y$ . Таким чином, взаємну інформацію можна також розуміти як математичне сподівання відстані Кульбака — Лейблера одновимірного розподілу^[en] $p(x)$ змінної $X$ від умовного розподілу $p(x|y)$ змінної $X$ відносно $Y$ : що більш відмінними в середньому є розподіли $p(x|y)$ та $p(x)$ , то більшим є приріст інформації.

Баєсове оцінювання взаємної інформації

Як робити баєсове оцінювання взаємної інформації спільного розподілу на основі зразків цього розподілу, є добре зрозумілим. Першою працею про те, як це робити, яка також показала, як робити баєсове оцінювання багато чого іншого в теорії інформації, понад взаємну інформацію, була праця Волперта 1995 року.^[2] Наступні дослідники цей аналіз перевивели^[3] та розширили.^[4] Див. нещодавню працю^[5] на основі апріорного, спеціально пристосованого для оцінювання взаємної інформації як такої.

Припущення про незалежність

Формулювання взаємної інформації в термінах відстані Кульбака — Лейблера ґрунтується на зацікавленні в порівнянні $p(x,y)$ з повністю розкладеним діадним добутком $p(x)\cdot p(y)$ . В багатьох задачах, таких як розклад невід'ємних матриць, цікавлять менш екстремальні розклади, а саме, хочуть порівнювати $p(x,y)$ з низькоранговим матричним наближенням у якійсь невідомій змінній $w$ , тобто, до якої міри можна мати

p(x,y)\approx \sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)

Або ж може цікавити дізнатися, скільки інформації несе $p(x,y)$ понад свій розклад. В такому випадку додаткова інформація, що несе повний розподіл $p(x,y)$ відносно цього матричного розкладу, задається відстанню Кульбака — Лейблера:

\operatorname {I} _{LRMA}=\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p(x,y)\log {\left({\frac {p(x,y)}{\sum _{w}p^{\prime }(x,w)p^{\prime \prime }(w,y)}}\right)}},

Стандартне визначення взаємної інформації відтворюється в екстремальному випадку, коли процес $W$ має для $w$ лише одне значення.

Різновиди

Для задоволення різних потреб було запропоновано кілька варіацій взаємної інформації. Серед них є нормалізовані варіанти та узагальнення до понад двох змінних.

Метрика

Багато застосувань вимагають метрики, тобто міри відстань між парами точок. Величина

{\begin{aligned}d(X,Y)&=\mathrm {H} (X,Y)-\operatorname {I} (X;Y)\\&=\mathrm {H} (X)+\mathrm {H} (Y)-2\operatorname {I} (X;Y)\\&=\mathrm {H} (X|Y)+\mathrm {H} (Y|X)\end{aligned}}

задовольняє властивості метрики (нерівність трикутника, невід'ємність, нерозрізнюваність^[en] та симетрію). Ця метрика відстані також відома як різновидність інформації^[en].

Якщо $X,Y$ є дискретними випадковими змінними, то всі члени ентропії є невід'ємними, тому $0\leq d(X,Y)\leq \mathrm {H} (X,Y)$ і можливо визначити унормовану відстань

D(X,Y)={\frac {d(X,Y)}{\mathrm {H} (X,Y)}}\leq 1.

Метрика $D$ є універсальною метрикою, в тому сенсі, що якщо будь-яка інша міра відстані розмістить $X$ та $Y$ поруч, то й $D$ також розглядатиме їх як близькі.^[6]^{[сумнівно — обговорити]}

Підключення визначень показує, що

D(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}.

У теоретико-множинній інтерпретації інформації (див. малюнок в умовній ентропії) це є фактично відстанню Жаккара між $X$ та $Y$ .

Нарешті,

D^{\prime }(X,Y)=1-{\frac {\operatorname {I} (X;Y)}{\max \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}}

також є метрикою.

Умовна взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Умовна взаємна інформація^[en].

Іноді корисно виражати взаємну інформацію двох випадкових змінних відносно третьої.

{\begin{aligned}&{}\operatorname {I} (X;Y|Z)=\mathbb {E} _{Z}{\big (}\operatorname {I} (X;Y)|Z{\big )}=\\&{}\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}{p_{Z}(z)\,p_{X,Y|Z}(x,y|z)\log \left[{\frac {p_{X,Y|Z}(x,y|z)}{p_{X|Z}\,(x|z)p_{Y|Z}(y|z)}}\right]},\end{aligned}}

що може бути спрощено як

{\begin{aligned}&{}\operatorname {I} (X;Y|Z)=\\&{}\sum _{z\in {\mathcal {Z}}}\sum _{y\in {\mathcal {Y}}}\sum _{x\in {\mathcal {X}}}p_{X,Y,Z}(x,y,z)\log {\frac {p_{X,Y,Z}(x,y,z)p_{Z}(z)}{p_{X,Z}(x,z)p_{Y,Z}(y,z)}}.\end{aligned}}

Обумовлювання третьою випадковою змінною може збільшувати або зменшувати взаємну інформацію, але для дискретних спільно розподілених випадкових змінних $X,Y,Z$ завжди залишається істинним

\operatorname {I} (X;Y|Z)\geq 0.

Цей результат застосовувався як основний будівельний блок для доведення інших нерівностей в теорії інформації^[en].

Багатовимірна взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Багатовимірна взаємна інформація^[en].

Було запропоновано декілька узагальнень взаємної інформації для понад двох випадкових змінних, такі як повна кореляція^[en] та інформація взаємодії^[en]. Якщо розглядати ентропію Шеннона як знакозмінну міру в контексті інформаційних діаграм^[en], як описано в статті «Теорія інформації та теорія міри^[en]», то єдиним визначенням багатовимірної взаємної інформації, яке має сенс,^{[джерело?]} є наступне:

\operatorname {I} (X_{1};X_{1})=\mathrm {H} (X_{1})

і для $n>1$

\operatorname {I} (X_{1};\,...\,;X_{n})=\operatorname {I} (X_{1};\,...\,;X_{n-1})-\operatorname {I} (X_{1};\,...\,;X_{n-1}|X_{n}),

де (як вище) ми визначаємо

\operatorname {I} (X_{1};\,...\,;X_{n-1}|X_{n})=\mathbb {E} _{X_{n}}{\bigl [}\operatorname {I} (X_{1};\,...\,;X_{n-1})|X_{n}{\bigr ]}.

(Це визначення багатовимірної взаємної інформації є ідентичним визначенню інформації взаємодії^[en], за винятком зміни знаку, коли число випадкових змінних є непарним.)

Застосування

Сліпе застосування інформаційних схем для виведення вищевказаного визначення^{[джерело?]} зазнавало критики,^[чиєї?] і дійсно, воно знайшло досить обмежене практичне застосування, оскільки важко уявити або зрозуміти значення цієї кількості для великого числа випадкових змінних. Вона може бути нульовою, додатною або від'ємною для будь-якого непарного числа змінних $n\geq 3.$

Одна зі схем багатовимірного узагальнення, яка максимізує взаємну інформацію між спільним розподілом та іншими цільовими змінними, виявилася корисною в обиранні ознак.^[7]

Взаємну інформацію також застосовують в галузі обробки сигналів як міру подібності двох сигналів. Наприклад, метрика взаємної інформації ознак (англ. FMI, feature mutual information)^[8] — це міра продуктивності злиття зображень, яка застосовує взаємну інформацію для вимірювання кількості інформації, яку злите зображення містить про первинні зображення. Код MATLAB для цієї метрики можна знайти за адресою ^[9].

Спрямована інформація

Спрямована інформація^[en], $\operatorname {I} \left(X^{n}\to Y^{n}\right)$ , вимірює кількість інформації, що протікає з процесу $X^{n}$ до $Y^{n}$ , де $X^{n}$ позначує вектор $X_{1},X_{2},...,X_{n}$ , а $Y^{n}$ позначує $Y_{1},Y_{2},...,Y_{n}$ . Термін «спрямована інформація» (англ. directed information) було започатковано Джеймсом Мессі, й визначено як

\operatorname {I} \left(X^{n}\to Y^{n}\right)=\sum _{i=1}^{n}\operatorname {I} \left(X^{i};Y_{i}|Y^{i-1}\right)

.

Зауважте, що якщо $n=1$ , то спрямована інформація стає взаємною інформацією. Спрямована інформація має багато застосувань у задачах, в яких важливу роль відіграє причинність, таких як пропускна здатність каналу зі зворотним зв'язком.^[10]^[11]

Унормовані варіанти

Унормовані варіанти взаємної інформації забезпечуються коефіцієнтами обмеження,^[12] коефіцієнтом невизначеності^[en]^[13] або вправністю (англ. proficiency):^[14]

C_{XY}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (Y)}}

та

C_{YX}={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)}}.

Ці два коефіцієнти не обов'язково дорівнюють один одному. В деяких випадках може бути бажаною симетрична міра, така як наступна міра надмірності (англ. redundancy):^{[джерело?]}

R={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

яка досягає нульового мінімуму, коли змінні є незалежними, і максимального значення

R_{\max }={\frac {\min \left\{\mathrm {H} (X),\mathrm {H} (Y)\right\}}{\mathrm {H} (X)+\mathrm {H} (Y)}}

коли одна зі змінних стає абсолютно надмірною при знанні іншої. Див. також надмірність інформації. Іншою симетричною мірою є симетрична невизначеність (Witten та Frank, 2005), яку задають як

U(X,Y)=2R=2{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X)+\mathrm {H} (Y)}}

що представляє середнє гармонійне двох коефіцієнтів невизначеності $C_{XY},C_{YX}$ .^[13]

Якщо розглядати взаємну інформацію як окремий випадок повної кореляції^[en] або двоїстої повної кореляції^[en], то унормованими версіями відповідно є

{\frac {\operatorname {I} (X;Y)}{\min \left[\mathrm {H} (X),\mathrm {H} (Y)\right]}}

та

{\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}\;.

Ця унормована версія також відома як показник якості інформації (англ. Information Quality Ratio, IQR), що дає кількісну оцінку інформації змінної на основі іншої змінної відносно повної невизначеності:^[15]

IQR(X,Y)=\operatorname {E} [\operatorname {I} (X;Y)]={\frac {\operatorname {I} (X;Y)}{\mathrm {H} (X,Y)}}={\frac {\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x)p(y)}}{\sum _{x\in X}\sum _{y\in Y}p(x,y)\log {p(x,y)}}}-1

Існує унормування,^[16] яке випливає з першого розгляду взаємної інформації як аналогу коваріації (таким чином, ентропія Шеннона є аналогом дисперсії). Потім унормована взаємна інформація розраховується подібно до коефіцієнту кореляції Пірсона,

{\frac {\operatorname {I} (X;Y)}{\sqrt {\mathrm {H} (X)\mathrm {H} (Y)}}}\;.

Зважені варіанти

В традиційному формулюванні взаємної інформації

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

кожна подія чи об'єкт, вказані як $(x,y)$ , зважуються відповідною ймовірністю $p(x,y)$ . Це передбачає, що всі об'єкти або події є рівнозначними без врахування ймовірностей їх настання. Проте в деяких застосуваннях може бути так, що певні об'єкти або події є більш значущими, ніж інші, або що деякі шаблони зв'язків є семантично важливішими за інші.

Наприклад, детерміноване відображення $\{(1,1),(2,2),(3,3)\}$ може розглядатися як сильніше за детерміноване відображення $\{(1,3),(2,1),(3,2)\}$ , хоча ці відношення видадуть однакову взаємну інформацію. Це відбувається тому, що взаємна інформація взагалі не чутлива до жодного природного впорядкування значень змінних (Cronbach, 1954, Coombs, Dawes та Tversky, 1970, Lockhead, 1970), і тому взагалі не чутлива до форми відносного відображення між зв'язаними змінними. Якщо бажано, щоби перше відношення — яке показує узгодженість за всіма значеннями змінних — оцінювалося вище, ніж друге відношення, то можна використовувати наступну зважену взаємну інформацію (Guiasu, 1977).

\operatorname {I} (X;Y)=\sum _{y\in Y}\sum _{x\in X}w(x,y)p(x,y)\log {\frac {p(x,y)}{p(x)\,p(y)}},

яка поміщає вагу $w(x,y)$ на імовірність кожного збігу значень змінних, $p(x,y)$ . Це дозволяє робити так, щоби деякі ймовірності могли нести більше або менше важливості за інші, тим самим дозволяючи кількісно виразити відповідні чинники цілісності (англ. holistic) або виразності (нім. Prägnanz). У наведеному вище прикладі застосування більших відносних ваг для $w(1,1)$ , $w(2,2)$ і $w(3,3)$ матиме ефект вищої оцінки інформативності для відношення $\{(1,1),(2,2),(3,3)\}$ , ніж для відношення $\{(1,3),(2,1),(3,2)\}$ , що може бути бажаним в деяких випадках розпізнавання образів тощо. Ця зважена взаємна інформація є вираженням зваженої відстані Кульбака — Лейблера, яка, як відомо, може набувати від'ємних значень для деяких входів,^[17] і є приклади, де зважена взаємна інформація також набуває від'ємних значень.^[18]

Скоригована взаємна інформація

Детальніші відомості з цієї теми ви можете знайти в статті Скоригована взаємна інформація^[en].

Розподіл імовірності можна розглядати як розбиття множини. Можна запитати: якщо множину було розбито випадковим чином, яким буде розподіл імовірностей? Яким буде математичне сподівання взаємної інформації? Скоригована взаємна інформація^[en] (англ. adjusted mutual information, AMI) віднімає математичне сподівання взаємної інформації таким чином, що вона дорівнює нулеві, коли два різних розподіли носять випадковий характер, і одиниці, коли два розподіли збігаються. Скоригована взаємна інформація визначається за аналогією зі скоригованим індексом Ренда^[en] двох різних розбиттів множини.

Абсолютна взаємна інформація

З допомогою ідей колмогоровської складності можна розглядати взаємну інформацію двох послідовностей незалежно від будь-якого розподілу ймовірностей:

\operatorname {I} _{K}(X;Y)=K(X)-K(X|Y).

Встановлення того, що ця величина є симетричною з точністю до логарифмічного множника ( $\operatorname {I} _{K}(X;Y)\approx \operatorname {I} _{K}(Y;X)$ ), потребує ланцюгового правила для колмогоровскої складності^[en] (Li та Vitányi, 1997). Наближення цієї величини через стиснення може застосовуватися для визначення міри відстані для виконання ієрархічного кластерування послідовностей без жодного знання про предметну область цих послідовностей (Cilibrasi та Vitányi, 2005).

Лінійна кореляція

На відміну від коефіцієнтів кореляції, наприклад, коефіцієнту кореляції моменту добутку, взаємна інформація містить інформацію про всю залежність — лінійну й нелінійну, — а не просто про лінійну залежність, як міри коефіцієнтів кореляції. Тим не менш, у вузькому випадку, в якому спільний розподіл $X$ та $Y$ є двовимірним нормальним розподілом (за припущення, зокрема, що обидва відособлені розподіли розподілені нормально), існує точний взаємозв'язок між $\operatorname {I}$ та коефіцієнтом кореляції $\rho$ (Гельфанд та Яглом, 1957).

\operatorname {I} =-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

Наведене вище рівняння може бути виведено для двовимірного нормального розподілу наступним чином:

{\begin{aligned}{\begin{pmatrix}X_{1}\\X_{2}\end{pmatrix}}&\sim {\mathcal {N}}\left({\begin{pmatrix}\mu _{1}\\\mu _{2}\end{pmatrix}},\Sigma \right),\qquad \Sigma ={\begin{pmatrix}\sigma _{1}^{2}&\rho \sigma _{1}\sigma _{2}\\\rho \sigma _{1}\sigma _{2}&\sigma _{2}^{2}\end{pmatrix}}\\\mathrm {H} (X_{i})&={\frac {1}{2}}\log \left(2\pi e\sigma _{i}^{2}\right)={\frac {1}{2}}+{\frac {1}{2}}\log(2\pi )+\log \left(\sigma _{i}\right),\quad i\in \{1,2\}\\\mathrm {H} (X_{1},X_{2})&={\frac {1}{2}}\log \left[(2\pi e)^{2}|\Sigma |\right]=1+\log(2\pi )+\log \left(\sigma _{1}\sigma _{2}\right)+{\frac {1}{2}}\log \left(1-\rho ^{2}\right)\\\end{aligned}}

Отже,

\operatorname {I} \left(X_{1};X_{2}\right)=\mathrm {H} \left(X_{1}\right)+\mathrm {H} \left(X_{2}\right)-\mathrm {H} \left(X_{1},X_{2}\right)=-{\frac {1}{2}}\log \left(1-\rho ^{2}\right)

Для дискретних даних

Коли $X$ та $Y$ обмежено перебуванням у дискретному числі станів, то дані спостережень підсумовують до таблиці спряженості зі змінною рядків $X$ (або $i$ ) та змінною стовпців $Y$ (або $j$ ). Взаємна інформація є однією з мір асоційовності або кореляції між змінними рядків і стовпців. До інших мір асоційовності належать статистики критерію хі-квадрат Пірсона, статистики G-критерію^[en] тощо. Фактично, взаємна інформація дорівнює статистиці G-критерію^[en], поділеній на $2N$ , де $N$ є розміром вибірки.

Застосування

В багатьох застосуваннях потрібно максимізувати взаємну інформацію (тим самим збільшуючи взаємозалежність), що часто рівнозначне мінімізації умовної ентропії. До прикладів належать:

У технології пошукових рушіїв взаємну інформацію між фразами та контекстами використовують як ознаку для кластерування методом k-середніх для виявлення семантичних кластерів (понять).^[19]
У телекомунікаціях пропускна спроможність каналу дорівнює взаємній інформації, максимізованій над усіма вхідними розподілами.
Було запропоновано процедури розрізнювального навчання для прихованих марковських моделей на основі критерію максимальної взаємної інформації (англ. maximum mutual information, MMI).
Передбачування вторинної структури РНК^[en] з множинного вирівнювання послідовностей.
Передбачування філогенетичного профілювання^[en] з попарної присутності або відсутності функціонально пов'язаних генів.
Взаємну інформацію застосовували в машинному навчанні як критерій для обирання ознак та перетворень ознак. Її можливо застосовувати для характеризування як доречності, так і надлишковості змінних, як в обиранні ознак за мінімальною надлишковістю^[en].
Взаємну інформацію використовують у визначенні подібності двох різних кластерувань набору даних. Як така, вона пропонує деякі переваги над традиційним індексом Ренда^[en].
Взаємну інформацію слів часто використовують як функцію значущості для обчислення колокації в корпусній лінгвістиці. Це має додаткову складність в тому, що жоден випадок слова не є випадком для двох різних слів; швидше, рахують випадки, в яких 2 слова трапляються суміжно або в безпосередній близькості; це дещо ускладнює розрахунок, оскільки очікувана ймовірність трапляння одного слова в межах $N$ слів від іншого росте з $N$ .
Взаємну інформацію застосовують у медичній візуалізації для зіставлення зображень. Для заданого еталонного зображення (наприклад, результату сканування мозку) та другого зображення, яке потрібно покласти до тієї ж системи координат, що й еталонне зображення, це зображення деформується доти, доки взаємну інформацію між ним та еталонним зображенням не буде максимізовано.
Виявляння фазової синхронізації в аналізі часових рядів.
Метод інфомакс^[en] для нейронних мереж та іншого машинного навчання, включно з алгоритмом методу незалежних компонент^[en] на основі інфомаксу.
В теоремі про вкладення із затримками^[en] усереднену взаємну інформацію використовують для визначення параметру вкладальної затримки.
Взаємну інформацію між генами в даних експресійних мікрочипів^[en] використовує алгоритм ARACNE для відбудови генних мереж.
В термінах взаємної інформації може бути виражено парадокс Лошмідта^[en] у статистичній механіці.^[20]^[21] Лошмідт зазначив, що може бути неможливим визначити фізичний закон, позбавлений зворотності (наприклад, другий закон термодинаміки), лише з таких фізичних законів, які цю зворотність мають. Він вказав, що в Η-теоремі^[en] Больцмана було зроблено припущення, що швидкості частинок в газі були постійно некорельованими, що усунуло природну зворотність в ній. Може бути показано, що якщо систему описано густиною ймовірності у фазовому просторі, то з теореми Ліувілля випливає, що спільна інформація (від'ємна спільна ентропія) розподілу залишається сталою в часі. Спільна інформація дорівнює взаємній інформації плюс сума всіх відособлених інформацій (від'ємних відособлених ентропій) для координат кожної з частинок. Припущення Больцмана рівнозначне ігноруванню взаємної інформації в обчисленні ентропії, що дає в результаті термодинамічну ентропію (ділену на сталу Больцмана).
Взаємну інформацію використовують для навчання структури баєсових мереж/динамічних баєсових мереж, що, як вважають, пояснюють причинно-наслідковий зв'язок між випадковими змінними, прикладом чого може слугувати інструментарій GlobalMIT:^[22] навчання глобально оптимальної динамічної баєсової мережі з критерієм взаємної інформації (англ. Mutual Information Test, MIT).
Популярна функція витрат у навчанні дерев рішень.
Взаємну інформацію використовують у космології, щоби перевіряти вплив великомасштабних середовищ на властивості галактик у Galaxy Zoo.
Взаємну інформацію використовували в фізиці Сонця для виведення сонячного диференціального ротора, карти відхилень часу руху сонячних плям, часово-відстаннєвої діаграми з вимірювань спокійного Сонця^[23]

Див. також

Примітки

↑ ^а ^б ^в Cover, T.M.; Thomas, J.A. (1991). Elements of Information Theory (вид. Wiley). ISBN 978-0-471-24195-9. (англ.)
↑ Wolpert, D.H.; Wolf, D.R. (1995). Estimating functions of probability distributions from a finite set of samples. Physical Review E. (англ.)
↑ Hutter, M. (2001). Distribution of Mutual Information. Advances in Neural Information Processing Systems 2001. (англ.)
↑ Archer, E.; Park, I.M.; Pillow, J. (2013). Bayesian and Quasi-Bayesian Estimators for Mutual Information from Discrete Data. Entropy. (англ.)
↑ Wolpert, D.H; DeDeo, S. (2013). Estimating Functions of Distributions Defined over Spaces of Unknown Size. Entropy. (англ.)
↑ Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). Hierarchical Clustering Based on Mutual Information. arXiv:q-bio/0311039. (англ.)
↑ Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). An Introduction to Information Retrieval. Cambridge University Press. ISBN 0-521-86571-9. (англ.)
↑ Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering. 37 (5): 744—756. doi:10.1016/j.compeleceng.2011.07.012. (англ.)
↑ Feature Mutual Information (FMI) metric for non-reference image fusion - File Exchange - MATLAB Central. www.mathworks.com. Архів оригіналу за 16 квітня 2014. Процитовано 4 квітня 2018. (англ.)
↑ Massey, James (1990). Causality, Feedback And Directed Informatio (ISITA). Архів оригіналу за 7 квітня 2018. Процитовано 16 грудня 2018. (англ.)
↑ Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (February 2009). Finite State Channels With Time-Invariant Deterministic Feedback. IEEE Transactions on Information Theory. 55 (2): 644—662. arXiv:cs/0608070. doi:10.1109/TIT.2008.2009849. (англ.)
↑ Coombs, Dawes та Tversky, 1970.
↑ ^а ^б Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). Section 14.7.3. Conditional Entropy and Mutual Information. Numerical Recipes: The Art of Scientific Computing (вид. 3). New York: Cambridge University Press. ISBN 978-0-521-88068-8. (англ.)
↑ White, Jim; Steingold, Sam; Fournelle, Connie. Performance Metrics for Group-Detection Algorithms (PDF). Архів оригіналу (PDF) за 5 липня 2016. Процитовано 28 червня 2016. (англ.)
↑ Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny. Information Quality Ratio as a novel metric for mother wavelet selection. Chemometrics and Intelligent Laboratory Systems. 160: 59—71. doi:10.1016/j.chemolab.2016.11.012. (англ.)
↑ Strehl, Alexander; Ghosh, Joydeep (2002), Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions (PDF), The Journal of Machine Learning Research, 3 (Dec): 583—617, архів оригіналу (PDF) за 3 серпня 2016, процитовано 28 червня 2016 (англ.)
↑ Kvålseth, T. O. (1991). The relative useful information measure: some comments. Information sciences. 56 (1): 35—38. doi:10.1016/0020-0255(91)90022-m. (англ.)
↑ Pocock, A. (2012). Feature Selection Via Joint Likelihood [Архівовано 5 листопада 2018 у Wayback Machine.] (PDF) (Thesis). (англ.)
↑ Parsing a Natural Language Using Mutual Information Statistics [Архівовано 25 лютого 2014 у Wayback Machine.] by David M. Magerman and Mitchell P. Marcus (англ.)
↑ Hugh Everett Theory of the Universal Wavefunction [Архівовано 16 жовтня 2012 у Wayback Machine.], Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30) (англ.)
↑ Everett, Hugh (1957). Relative State Formulation of Quantum Mechanics. Reviews of Modern Physics. 29: 454—462. Bibcode:1957RvMP...29..454E. doi:10.1103/revmodphys.29.454. Архів оригіналу за 27 жовтня 2011. Процитовано 28 червня 2016. (англ.)
↑ GlobalMIT на Google Code
↑ Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (February 2015). Application of Mutual Information Methods in Time Distance Helioseismology. Solar Physics. 290 (3): 659—671. arXiv:1501.05597. Bibcode:2015SoPh..290..659K. doi:10.1007/s11207-015-0650-y. (англ.)

Джерела

Cilibrasi, R.; Vitányi, Paul (2005). Clustering by compression (PDF). IEEE Transactions on Information Theory. 51 (4): 1523—1545. doi:10.1109/TIT.2005.844059. (англ.)
Cronbach, L. J. (1954). On the non-rational application of information measures in psychology. У Quastler, Henry (ред.). Information Theory in Psychology: Problems and Methods. Glencoe, Illinois: Free Press. с. 14–30. (англ.)
Coombs, C. H.; Dawes, R. M.; Tversky, A. (1970). Mathematical Psychology: An Elementary Introduction. Englewood Cliffs, New Jersey: Prentice-Hall. (англ.)
Church, Kenneth Ward; Hanks, Patrick (1989). Word association norms, mutual information, and lexicography. Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics. Архів оригіналу за 2 грудня 2018. Процитовано 16 грудня 2018. (англ.)
Гельфанд, И. М.; Яглом, А. М. (1957). О вычислении количества информации о случайной функции, содержащейся в другой такой функции. Успехи математических наук. 12 (1(73)): 3—52. (рос.)
Guiasu, Silviu (1977). Information Theory with Applications. McGraw-Hill, New York. ISBN 978-0-07-025109-0. (англ.)
Li, Ming; Vitányi, Paul (February 1997). An introduction to Kolmogorov complexity and its applications. New York: Springer-Verlag. ISBN 0-387-94868-6. (англ.)
Lockhead, G. R. (1970). Identification and the form of multidimensional discrimination space. Journal of Experimental Psychology. 85 (1): 1—10. doi:10.1037/h0029508. PMID 5458322. (англ.)
David J. C. MacKay. Information Theory, Inference, and Learning Algorithms [Архівовано 17 лютого 2016 у Wayback Machine.] Cambridge: Cambridge University Press, 2003. ISBN 0-521-64298-1 (available free online) (англ.)
Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering. 37 (5): 744—756. doi:10.1016/j.compeleceng.2011.07.012. (англ.)
Athanasios Papoulis. Probability, Random Variables, and Stochastic Processes, second edition. New York: McGraw-Hill, 1984. (See Chapter 15.) (англ.)
Witten, Ian H. & Frank, Eibe (2005). Data Mining: Practical Machine Learning Tools and Techniques. Morgan Kaufmann, Amsterdam. ISBN 978-0-12-374856-0. Архів оригіналу за 27 листопада 2020. Процитовано 28 червня 2016. (англ.)
Peng, H.C., Long, F., and Ding, C. (2005). Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy. IEEE Transactions on Pattern Analysis and Machine Intelligence. 27 (8): 1226—1238. doi:10.1109/tpami.2005.159. PMID 16119262. Архів оригіналу за 22 травня 2009. Процитовано 28 червня 2016. CS1 maint: Multiple names: authors list (link) (англ.)
Andre S. Ribeiro; Stuart A. Kauffman; Jason Lloyd-Price; Bjorn Samuelsson; Joshua Socolar (2008). Mutual Information in Random Boolean models of regulatory networks. Physical Review E. 77 (1). arXiv:0707.3642. Bibcode:2008PhRvE..77a1901R. doi:10.1103/physreve.77.011901. (англ.)
Wells, W.M. III; Viola, P.; Atsumi, H.; Nakajima, S.; Kikinis, R. (1996). Multi-modal volume registration by maximization of mutual information (PDF). Medical Image Analysis. 1 (1): 35—51. doi:10.1016/S1361-8415(01)80004-9. PMID 9873920. Архів оригіналу (PDF) за 6 вересня 2008. Процитовано 28 червня 2016. (англ.)
Pandey, Biswajit; Sarkar, Suman (2017). How much a galaxy knows about its large-scale environment?: An information theoretic perspective. Monthly Notices of the Royal Astronomical Society Letters. 467: L6. arXiv:1611.00283. Bibcode:2017MNRAS.467L...6P. doi:10.1093/mnrasl/slw250. (англ.)

Література

Габидулин, Э. М., Пилипчук, Н. И. Лекции по теории информации. — М.: МФТИ, 2007. — 214 с. — ISBN 5-7417-0197-3 (рос.)

[cover1991-1] а ^б ^в Cover, T.M.; Thomas, J.A. (1991). Elements of Information Theory (вид. Wiley). ISBN 978-0-471-24195-9. (англ.)

[2] Wolpert, D.H.; Wolf, D.R. (1995). Estimating functions of probability distributions from a finite set of samples. Physical Review E. (англ.)

[3] Hutter, M. (2001). Distribution of Mutual Information. Advances in Neural Information Processing Systems 2001. (англ.)

[4] Archer, E.; Park, I.M.; Pillow, J. (2013). Bayesian and Quasi-Bayesian Estimators for Mutual Information from Discrete Data. Entropy. (англ.)

[5] Wolpert, D.H; DeDeo, S. (2013). Estimating Functions of Distributions Defined over Spaces of Unknown Size. Entropy. (англ.)

[6] Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (2003). Hierarchical Clustering Based on Mutual Information. arXiv:q-bio/0311039. (англ.)

[7] Christopher D. Manning; Prabhakar Raghavan; Hinrich Schütze (2008). An Introduction to Information Retrieval. Cambridge University Press. ISBN 0-521-86571-9. (англ.)

[8] Haghighat, M. B. A.; Aghagolzadeh, A.; Seyedarabi, H. (2011). A non-reference image fusion metric based on mutual information of image features. Computers & Electrical Engineering. 37 (5): 744—756. doi:10.1016/j.compeleceng.2011.07.012. (англ.)

[9] Feature Mutual Information (FMI) metric for non-reference image fusion - File Exchange - MATLAB Central. www.mathworks.com. Архів оригіналу за 16 квітня 2014. Процитовано 4 квітня 2018. (англ.)

[10] Massey, James (1990). Causality, Feedback And Directed Informatio (ISITA). Архів оригіналу за 7 квітня 2018. Процитовано 16 грудня 2018. (англ.)

[11] Permuter, Haim Henry; Weissman, Tsachy; Goldsmith, Andrea J. (February 2009). Finite State Channels With Time-Invariant Deterministic Feedback. IEEE Transactions on Information Theory. 55 (2): 644—662. arXiv:cs/0608070. doi:10.1109/TIT.2008.2009849. (англ.)

[FOOTNOTECoombsDawesTversky1970-12] Coombs, Dawes та Tversky, 1970.

[pressflannery-13] а ^б Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). Section 14.7.3. Conditional Entropy and Mutual Information. Numerical Recipes: The Art of Scientific Computing (вид. 3). New York: Cambridge University Press. ISBN 978-0-521-88068-8. (англ.)

[JimWhite-14] White, Jim; Steingold, Sam; Fournelle, Connie. Performance Metrics for Group-Detection Algorithms (PDF). Архів оригіналу (PDF) за 5 липня 2016. Процитовано 28 червня 2016. (англ.)

[DRWijaya-15] Wijaya, Dedy Rahman; Sarno, Riyanarto; Zulaika, Enny. Information Quality Ratio as a novel metric for mother wavelet selection. Chemometrics and Intelligent Laboratory Systems. 160: 59—71. doi:10.1016/j.chemolab.2016.11.012. (англ.)

[strehl-jmlr02-16] Strehl, Alexander; Ghosh, Joydeep (2002), Cluster Ensembles – A Knowledge Reuse Framework for Combining Multiple Partitions (PDF), The Journal of Machine Learning Research, 3 (Dec): 583—617, архів оригіналу (PDF) за 3 серпня 2016, процитовано 28 червня 2016 (англ.)

[weighted-kl-17] Kvålseth, T. O. (1991). The relative useful information measure: some comments. Information sciences. 56 (1): 35—38. doi:10.1016/0020-0255(91)90022-m. (англ.)

[18] Pocock, A. (2012). Feature Selection Via Joint Likelihood [Архівовано 5 листопада 2018 у Wayback Machine.] (PDF) (Thesis). (англ.)

[magerman-19] Parsing a Natural Language Using Mutual Information Statistics [Архівовано 25 лютого 2014 у Wayback Machine.] by David M. Magerman and Mitchell P. Marcus (англ.)

[everett56-20] Hugh Everett Theory of the Universal Wavefunction [Архівовано 16 жовтня 2012 у Wayback Machine.], Thesis, Princeton University, (1956, 1973), pp 1–140 (page 30) (англ.)

[everett57-21] Everett, Hugh (1957). Relative State Formulation of Quantum Mechanics. Reviews of Modern Physics. 29: 454—462. Bibcode:1957RvMP...29..454E. doi:10.1103/revmodphys.29.454. Архів оригіналу за 27 жовтня 2011. Процитовано 28 червня 2016. (англ.)

[22] GlobalMIT на Google Code

[23] Keys, Dustin; Kholikov, Shukur; Pevtsov, Alexei A. (February 2015). Application of Mutual Information Methods in Time Distance Helioseismology. Solar Physics. 290 (3): 659—671. arXiv:1501.05597. Bibcode:2015SoPh..290..659K. doi:10.1007/s11207-015-0650-y. (англ.)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]