Математична теорія інформації ґрунтується на теорії ймовірності й статистиці, і вимірює інформацію за допомогою декількох кількостей інформації (англ. quantities of information). Застосовувану в наступних формулах одиницю інформаційної ентропії визначає вибір логарифмічної основи. Найзвичнішою одиницею інформації є біт, що ґрунтується на двійковому логарифмі. До інших одиниць належать нат, що ґрунтується на натуральному логарифмі, та гартлі, що ґрунтується на десятковому логарифмі.

Проста інформаційна діаграма[en], що показує адитивні та різницеві відношення серед шеннонових базових кількостей інформації для корельованих змінних та . Область, яка міститься в обох колах, є спільною ентропією . Коло ліворуч (червоний і фіолетовий) є особистою ентропією , в якому червоне є умовною ентропією . Коло праворуч (синій та фіолетовий) є , а синє в ньому є . Фіолетове є взаємною інформацією .

Надалі вираз вигляду , коли є нулем, вважається за згодою рівним нулеві. Це є виправданим, оскільки для будь-якої логарифмічної основи .

Власна інформація ред.

Шеннон вивів міру інформаційного вмісту, названу власною інформацією (англ. self-information) або «несподіваністю» (англ. "surprisal") повідомлення  :

 

де   є ймовірністю обрання повідомлення   з усіх можливих варіантів вибору в просторі повідомлень  . Основа логарифма впливає лише на коефіцієнт масштабування, і, відтак, на одиниці, в яких виражається вимірюваний інформаційний вміст. Якщо основою логарифма є 2, то міра інформації виражається в одиницях бітів.

Інформація передається з джерела до отримувача лише якщо отримувач цієї інформації ще не мав її заздалегідь. Повідомлення, які передають інформацію, що відбувається напевно, і вже відома отримувачеві, реальної інформації не містять. Повідомлення, що трапляються нечасто, містять більше інформації, ніж повідомлення, які трапляються частіше. Цей факт віддзеркалено в наведеному вище рівнянні — незмінне повідомлення, тобто, з імовірністю 1, має нульову міру інформації. Крім того, складене повідомлення з двох (або більше) не пов'язаних (або взаємно незалежних) повідомлень матиме міру інформації, яка є сумою мір інформації кожного з повідомлень окремо. Цей факт також віддзеркалено в наведеному вище рівнянні, що підтверджує обґрунтованість його виведення.

Приклад. Повідомлення прогнозу погоди: «Прогноз на ніч: Темно. Тривала темрява, аж до широко розсіяного світла вранці.» Це повідомлення майже не містить інформації. Проте прогноз хуртовини безумовно міститиме інформацію, оскільки таке не трапляється щовечора. Величина інформації буде ще більшою в точному прогнозі снігу для теплого місця, такого як Маямі. Величина інформації в прогнозі снігу для місця, де сніг не йде ніколи (неможлива подія), є найвищою (нескінченність).

Ентропія ред.

Ентропія (англ. entropy) дискретного простору повідомлень   є мірою величини невизначеності (англ. uncertainty), що ми маємо стосовно того, яке повідомлення буде обрано. Її визначено як усереднену власну інформацію повідомлення   з цього простору повідомлень:

 

де

  позначує операцію математичного сподівання (англ. expected value).

Важливою властивістю ентропії є те, що вона є найбільшою, коли всі повідомлення в просторі повідомлень є рівноймовірними (тобто,  ). В цьому випадку  .

Іноді функцію   виражають в термінах імовірностей розподілу:

  де кожна   та  

Важливим особливим випадком цього є функція двійкової ентропії[en]:

 

Спільна ентропія ред.

Спільну ентропію (англ. joint entropy) двох дискретних випадкових змінних   та   визначають як ентропію їхнього спільного розподілу:

 

Якщо   та   є незалежними, то ця спільна ентропія є просто сумою їхніх окремих ентропій.

(Зауваження: Спільну ентропію не слід плутати з перехресною ентропією, незважаючи на подібний запис.)

Умовна ентропія (ухильність) ред.

За заданого конкретного значення випадкової змінної   умовну ентропію   за   визначено як

 

де   є умовною ймовірністю   за заданого  .

Умовну ентропію (англ. conditional entropy)   за заданого  , що також називають ухильністю (англ. equivocation)   від  , задають як

 

Вона використовує умовне математичне сподівання з теорії імовірності.

Базовою властивістю умовної ентропії є те, що

 

Відстань Кульбака — Лейблера (приріст інформації) ред.

Відстань Кульбака — Лейблера (або розходження інформації, приріст інформації, або відносна ентропія, англ. Kullback–Leibler divergence, information divergence, information gain, relative entropy) є способом порівнювання двох розподілів, «істинного» розподілу ймовірності   та довільного розподілу ймовірності  . Якщо ми стискаємо дані таким чином, який передбачає, що   є розподілом, що лежить в основі якихось даних, тоді як насправді правильним розподілом є  , то відстань Кульбака — Лейблера є числом усереднених додаткових бітів над рівнем, необхідних для стискання, або, математично,

 

В якомусь сенсі вона дійсно є «відстанню» від   до  , хоча вона й не є справжньою метрикою через те, що вона не є симетричною.

Взаємна (передавана) інформація ред.

Виявляється, що однією з найкорисніших та найважливіших мір інформації є взаємна інформація (англ. mutual information), або передавана інформація (англ. transinformation). Вона є мірою того, як багато інформації може бути отримано про одну випадкову змінну шляхом спостерігання іншої. Взаємну інформацію   відносно   (яка концептуально представляє усереднену величину інформації про  , яку можна здобути спостеріганням  ) задають як

 

Основною властивістю взаємної інформації є те, що

 

Тобто, знаючи  , ми можемо заощадити в середньому   бітів у кодуванні  , у порівнянні з незнанням  . Взаємна інформація є симетричною:

 

Взаємну інформацію можливо виразити як усереднену відстань Кульбака — Лейблера (приріст інформації) апостеріорного розподілу ймовірності   за заданого значення   відносно апріорного розподілу ймовірності  :

 

Іншими словами, вона є мірою того, наскільки в середньому зміниться розподіл ймовірності  , якщо ми отримаємо значення  . Обчислюють її часто як розходження між добутком відособлених розподілів та справжнім спільним розподілом:

 

Взаємна інформація є тісно пов'язаною з перевіркою логарифмічним відношенням правдоподібностей в контексті таблиць спряженості та мультиноміального розподілу, та з критерієм χ2 Пірсона: взаємну інформацію можливо розглядати як статистику для оцінювання незалежності в парі змінних, і вона має добре визначений асимптотичний розподіл.

Диференціальна ентропія ред.

Основні міри дискретної ентропії було аналогічно розширено на неперервні простори шляхом заміни сум інтегралами, та функцій маси ймовірності функціями густини ймовірності. І хоча в обох випадках взаємна інформація виражає число бітів інформації, спільне для цих двох джерел, ця аналогія не передбачає однакових властивостей: наприклад, диференціальна ентропія може бути від'ємною.

Диференціальні аналоги ентропії, спільної ентропії, умовної ентропії та взаємної інформації визначено таким чином:

 
 
 
 
 

де   є функцією густини спільного розподілу,   та   є відособленими розподілами, а   є умовним розподілом.

Див. також ред.