Логарифмічна ймовірність

Логарифмічна ймовірність (англ. log probability) в теорії ймовірностей та інформатиці, це просто логарифм імовірності^[1]. Його використання означає представлення ймовірності в логаритмічній шкалі $(-\inf ,0]$ , замість звичайного одиничного інтервалу $[0,1]$ .

Так як ймовірності незалежних подій перемножуються, а логарифми перетворюють множення на додавання, логарифмічні ймовірності незалежних подій додаються. Через це вони доволі зручні для обчислень, і мають інтуїтивне представлення в теорії інформації: від'ємне значення середньої логарифмічної ймовірності, є інформаційною ентропією події. Подібно, функція правдоподібності перетворюються в логарифмічний масштаб і логарифмічну правдоподібність можна інтерпретувати як міру до якої подія підтримує статистичну модель. Логарифм ймовірності часто застосовується в задачах обробки природньої мови.

Переваги ред.

Представлення ймовірності в цьому форматі має кілька практичних переваг:

Швидкість. Множення обчислювально дорожче ніж додавання, тому отримання ймовірності багатьох подій часто швидше, якщо вони представлені в логарифмічній формі. (Саме логарифмічне перетворення складне, але виконується лише раз)
Точність. Використання логарифмів покращує числову стійкість, коли ймовірності дуже малі, через формат задання чисел в комп'ютері^[1].
Простота. Багато розподілів ймовірностей мають експоненційну форму. Якщо взяти логарифм цих розподілів, експоненційна функція пропадає. Наприклад, логарифм густини ймовірності нормального розподілу це $-((x-m_{x})/\sigma _{m})^{2}+C$ замість $C_{2}\exp \left(-((x-m_{x})/\sigma _{m})^{2}\right)$ .

Проблеми з представленням ред.

Функція логарифму не визначена для нуля, тому логарифмічні ймовірності не можуть задавати неможливі події.

Основні операції ред.

Позначимо логарифмічні ймовірності штрихом:

x'=\log(x)\in \mathbb {R}

y'=\log(y)\in \mathbb {R}

Добуток ймовірностей $x\cdot y$ відповідає додаванню в логарифмічному просторі.

\log(x\cdot y)=\log(x)+\log(y)=x'+y'.

Додавання ред.

{\begin{aligned}&\log(x+y)\\={}&\log(x+x\cdot y/x)\\={}&\log(x+x\cdot \exp(\log(y/x)))\\={}&\log(x\cdot (1+\exp(\log(y)-\log(x))))\\={}&\log(x)+\log(1+\exp(\log(y)-\log(x)))\\={}&x'+\log \left(1+\exp \left(y'-x'\right)\right)\end{aligned}}

Формула вище є точнішою за $\log \left(e^{x'}+e^{y'}\right)$ , особливо якщо скористатися асиметрією. Як ${x'}$ краще використати більше (менш негативне) значення. Правильно обране ${x'}$ також дає коректні значення, якщо один з аргументів - -INF, що відповідає нульовій ймовірності.

-\infty +\log \left(1+\exp \left(y'-(-\infty )\right)\right)=-\infty +\infty

. Це значення невизначене, і дасть NaN.

x'+\log \left(1+\exp \left(-\infty -x'\right)\right)=x'+0

. Це правильне значення.

Використання тільки цієї формули даватиме невизначені результати якщо обидва аргументи дорівнюють $-\infty$ . Цей випадок треба розглядати окремо і повертати $-\infty$ .

Також, для обчислення $\log(1+x)$ краще використовувати спеціалізовану функцію log1p^[2].

Див. також ред.

Зноски ред.

↑ ^а ^б Piech, Chris. Probability for Computer scientists - Log probabilities. Процитовано 20 липня 2023.
↑ https://numpy.org/doc/stable/reference/generated/numpy.log1p.html

[chrispiech-1] а ^б Piech, Chris. Probability for Computer scientists - Log probabilities. Процитовано 20 липня 2023.

[2] ttps://numpy.org/doc/stable/reference/generated/numpy.log1p.html

[1]

[2]