Диференціальна ентропія

Диференціальна ентропія (англ. differential entropy, також англ. continuous entropy) — функціонал, визначений на множині абсолютно неперервних розподілів імовірностей, формальний аналог поняття інформаційної ентропії Шеннона для випадку неперервної випадкової величини. У теорії інформації функціонал евристично ввів К. Шеннон^[1], однак він не є автором терміна «диференціальна ентропія». Сам термін уведено А. М. Колмогоровим спільно з І. М. Гельфандом і А. М. Яглом^[ru], він підкреслює, що це поняття має інший зміст, ніж ентропія дискретних розподілів. Вони ж отримали строге виведення диференціальної ентропії як першого члена асимптотичного розкладу ентропії, в якому проявляється залежність від розподілу випадкової величини^[2]^[3]^[4]. Для неперервної випадкової величини $\xi$ , розподіленої на $X\subseteq R^{n}$ ( $n<\infty$ ), диференціальна ентропія визначається як

H(\xi )=-\int _{X}{f\left(x\right)\log f\left(x\right)\,}dx

,

де $f\left(x\right)$ — густина розподілу випадкової величини (або сигналу неперервного джерела як випадкової величини). Вибір основи логарифма в цій формулі (яка має бути більшою від 1) визначає одиницю вимірювання відповідної кількості інформації. Так, у теорії інформації часто використовують двійковий логарифм, що відповідає одиниці кількості інформації біт, а функціонал інтерпретується як середня інформація неперервного джерела. У математичній статистиці у визначенні диференціальної ентропії з міркувань зручності зазвичай використовують натуральний логарифм (відповідна одиниця нат), функціонал інтерпретується як міра невизначеності неперервного розподілу.

Диференціальна ентропія не інваріантна відносно перетворень координат випадкової величини і не має самостійного сенсу. Більш того, якщо випадкова величина має розмірність, то функціонал диференціальної ентропії буде некоректним з точки зору розмірності (оскільки під знаком логарифма виявляється розмірна величина). Однак різниця диференціальних ентропій двох випадкових величин, розподілених на одній множині, є коректною, причому безрозмірною величиною і збігається з різницею їхніх ентропій (оскільки ентропія будь-якої неперервної випадкової величини нескінченна, при взятті різниці ентропій потрібно розкрити невизначеність, скориставшись асимптотичним розкладом)^[3]^[4]^[5].

Таким чином, можливість виражати диференціальну ентропію в бітах (або інших одиницях) досить умовна: ситуація тут подібна до вимірювання температури в градусах Цельсія, які, хоча й збігаються за величиною з кельвінами, але не є абсолютною шкалою температури, а мають відносно неї деякий зсув (тому диференціальна ентропія, як і температура за шкалою Цельсія, може бути від'ємною). Відмінність полягає в тому, що у випадку з диференціальною ентропією цей зсув є нескінченним відносно абсолютної шкали, яка визначається значеннями ентропії. Тобто, абсолютну шкалу для ентропії неперервних розподілів обрати неможливо, але за допомогою диференціальної ентропії можна порівнювати ентропії різних розподілів.

У деяких джерелах^[5] диференціальну ентропію розподілу інтерпретують як його ентропію відносно ентропії рівномірного розподілу на проміжку одиничної довжини, оскільки останній має рівну нулю диференціальну ентропію. Потрібно зауважити, що такий підхід не зовсім коректний, оскільки ентропія в неперервному випадку залежить від того, яким чином крок дискретизації при розбитті проміжку прямує до нуля. Лише в разі, коли розглядається один і той самий проміжок, можна вважати, що при обчисленні ентропії використовується однакова його дискретизація для кожного з розподілів, тоді різниця ентропій прямує до скінченної границі. У загальному випадку (за довільної дискретизації) різниця ентропій неперервних випадкових величин не прямує до жодної границі.

Умовна диференціальна ентропія ред.

Умовна диференціальна ентропія для величини $X$ при заданій величині $Y$ визначається такою формулою:

H\left({X|Y=y}\right)=-\int \limits _{-\infty }^{+\infty }{f_{X|Y}\left(x\right)\log f_{X|Y}\left(x\right)\,dx}

.

Безумовна і умовна диференціальні ентропії можуть бути як додатними, так і від'ємними величинами, а також можуть дорівнювати нескінченності. Ця обставина також вказує на те, що диференціальна ентропія (умовна і безумовна) має дещо інший сенс, ніж ентропія, яка завжди невід'ємна.

Для диференціальної ентропії виконуються рівності, аналогічні ентропії дискретного джерела:

H\left(X\right)\geq H\left({X|Y}\right)

(для незалежних джерел — рівність)

H\left({X,Y}\right)=H\left(X\right)+H\left({Y|X}\right)=H\left(Y\right)+H\left({X|Y}\right)

Приклади ред.

У наведених нижче прикладах у визначенні диференціальної ентропії використовується натуральний логарифм, $\sigma ^{2}$ — дисперсія розподілу.

Можна показати, що диференціальна ентропія розподілів з обмеженою дисперсією найбільша в разі гауссового розподілу ймовірностей і дорівнює

H={\frac {1}{2}}\ln \left({2\pi \sigma ^{2}e}\right)

.

Серед розподілів, заданих на обмеженому проміжку, максимум диференціальної ентропії досягається для рівномірного розподілу і дорівнює

H=\ln \left({2{\sqrt {3}}\sigma }\right)

.

Для розподілу Лапласа

H=\ln \left({{\sqrt {2}}\sigma e}\right)

.

Приклади з конкретними одиницями вимірювання ред.

Візьмемо для визначеності біти. Отже основою логарифма буде 2.

Для рівномірного розподілу від $0$ до $1$ :

f(x)=1

H(f)=-\int _{0}^{1}dx1\log _{2}1=0\;{\rm {bit}}

Для рівномірного розподілу від $0$ до $2$ :

f(x)={\frac {1}{2}}

H(f)=-\int _{0}^{2}dx{\frac {1}{2}}\log _{2}{\frac {1}{2}}=1\;{\rm {bit}}

Для рівномірного розподілу від $0$ до $4$ :

f(x)={\frac {1}{4}}

H(f)=-\int _{0}^{4}dx{\frac {1}{4}}\log _{2}{\frac {1}{4}}=2\;{\rm {bit}}

Примітки ред.

↑ Шеннон, 1963, с. 296-300.
↑ Гельфанд, 1958, с. 300-320.
↑ ^а ^б Колмогоров, 1987, с. 39-41.
↑ ^а ^б Глушков, 1974, с. 583-585.
↑ ^а ^б Тарасенко, 1963, с. 74-77.

Література ред.

Вернер М. 8.1 Дифференциальная энтропия // Основы кодирования = Information und Codierung / пер. Д.К. Зигангирова. — ЗАО «РИЦ „Техносфера“», 2004. — С. 109—114. — (Мир программирования) — 3000 прим. — ISBN 5-94836-019-9.
Колмогоров А. Н. Теория информации и теория алгоритмов. — М. : Наука, 1987. — 304 с.
Тарасенко Ф. П. Введение в курс теории информации. — Томск : Изд-во Томского университета, 1963. — 240 с.
Шеннон К. Работы по теории информации и кибернетике. — М. : Издательство иностранной литературы, 1963. — 830 с.
Гельфанд И. М., Колмогоров А. Н., Яглом А. М. Количество информации и энтропия для непрерывных распределений. В кн.: Тр. III Всесоюзного математического съезда, т. 3. — М. : АН СССР, 1958.
Глушков В.М., Амосов Н.М., Артеменко И.А. Энциклопедия кибернетики. Том 2. — Київ, 1974.

Посилання ред.

Ентропія неперервної випадкової величини та її властивості [Архівовано 4 березня 2016 у Wayback Machine.] (рос.)

[FOOTNOTEШеннон1963296-300-1] Шеннон, 1963, с. 296-300.

[FOOTNOTEГельфанд1958300-320-2] Гельфанд, 1958, с. 300-320.

[FOOTNOTEКолмогоров198739-41-3] а ^б Колмогоров, 1987, с. 39-41.

[FOOTNOTEГлушков1974583-585-4] а ^б Глушков, 1974, с. 583-585.

[FOOTNOTEТарасенко196374-77-5] а ^б Тарасенко, 1963, с. 74-77.

[1]

[2]

[3]

[4]

[5]