У теорії інформації перехресна ентропія між двома розподілами ймовірності та над спільним простором подій вимірює середню кількість біт, необхідних для впізнання події з простору подій, якщо схема кодування, що використовується, базується на розподілі ймовірностей , замість «істинного» розподілу .

Визначення

ред.

Перехресна ентропія двох розподілів   і   на тому самому ймовірнісному просторі визначається наступним чином:

 .

Вираз можна переформулювати за допомогою   — дивергенції Кульбака — Лейблера від   до   (також відома як відносна ентропія   відносно  )

 ,

де   — ентропія  .

Для дискретного випадку   і   над одним і тим же носієм[en]   це значить, що

 

 

 

 

 

(Рів. 1)

Для неперервного розподілу аналогічна ситуація. Ми припускаємо, що   та   абсолютно неперервні відносно деякої міри   (зазвичай   є мірою Лебега на борелевій σ-алгебрі). Нехай   та   будуть функціями густини ймовірностей   та   відносно  . Тоді

 

 

 

 

 

(Рів.2)

NB: Запис   іноді використовується як для перехресної ентропії, так і для спільної ентропії   і  .

Мінімізація перехресної ентропії

ред.

Мінімізація перехресної ентропії часто використовується під час оптимізації та для оцінки імовірностей рідкісних випадків.

Застосування у машинному навчанні

ред.

У контексті машинного навчання перехресна ентропія  — це міра похибки для задачі багатокласової класифікації[en]. Зазвичай «істинний» розподіл (той, якому намагається відповідати алгоритм машинного навчання) виражається в термінах унітарного кодування.

Наприклад, припустимо, що для конкретного навчального екземпляра справжньою міткою є B з можливих міток A, B і C. Таким чином, унітарний розподіл для цього навчального екземпляра буде:

Pr(Class A) Pr(Class B) Pr(Class C)
0.0 1.0 0.0

Ми можемо інтерпретувати наведений вище істинний розподіл так, що навчальний екземпляр має 0% ймовірності бути класом A, 100% ймовірності бути класом B і 0% ймовірністю бути класом C.

Тепер припустимо, що алгоритм машинного навчання прогнозує такий розподіл ймовірностей:

Pr(Class A) Pr(Class B) Pr(Class C)
0.10 0.70 0.20

Наскільки близький прогнозований розподіл до справжнього? Саме це визначає перехресна ентропія, якщо її обрано як функцію втрати. Застосуємо формулу (Рів. 1):

 

Див. також

ред.