Спряжений апріорний розподіл
У баєсівській теорії ймовірностей, якщо апостеріорні розподіли p(θ | x) належать до того ж сімейства розподілу ймовірностей, що і апріорний розподіл ймовірностей p(θ), то апріорний і постеріорний розподіли називають спряженими розподілами, а апріорний розподіл називають спряженим апріором (або апріорним спряженням) функції правдоподібности p(x|θ).
Наприклад, сімейство Гаусса є спряженим до себе (або самосопряженим) відносно функції правдоподібності Гаусса: якщо функція правдоподібності є Гауссівською, вибір гауссового апріору на противагу простому середньому значенню гарантує, що постеріорний розподіл буде також Гауссівським. Це означає, що розподіл Гауса є спряженим апріором для Гаусівської функції правдоподібности.
Поняття, а також термін "спряжений апріор" запроваджено Говардом Райффою та Робертом Шлайфером в їхній роботі з Баєсівської теорії прийняття рішень[1]. Подібну концепцію незалежно описав Джордж Альфред Барнард[2].
Розглянемо загальну задачу виведення (неперервного) розподілу параметра θ з урахуванням деякого даного чи даних x . За теоремою Баєса постеріорний розподіл дорівнює добутку функції правдоподібності і апраіорного розподілу , нормованого ймовірністю даних :
Зафіксуємо функцію правдоподібності; функція правдоподібності, як правило, добре визначається на основі запису про твірний процес даних. Зрозуміло, що різні варіанти попереднього розподілу p ( θ ) можуть ускладнити обчислення інтегралу, а добуток p ( x | θ ) × p ( θ ) може приймати ту чи іншу алгебраїчну форму. Для певного вибору пріоритета, задній має ту саму алгебраїчну форму, що і пріоритет (як правило, з різними значеннями параметрів). Такий вибір є спряженим пріоритетом .
Спряжений апріор використовують для алгебричної зручности, за його допомогою можна отримати формулу для постеріорного розподілу; без нього може знадобитися чисельне інтегрування. Далі, спряжені апріори можуть давати інтуїтивне трактування, більш прозоро показуючи, як функція правдоподібності оновлює апріорний розподіл.
Усі члени експоненційної сім'ї мають спряжені апріори[3].
Приклад
ред.Форму спряженого апріора як правило, можне визначити шляхом перевірки густини ймовірності чи функції ймовірності розподілу. Наприклад, розглянемо випадкову величину, що складається з кількості успіхів в випробуваннях Бернуллі з невідомою ймовірністю успіху в [0,1]. Ця випадкова величина має біноміальний розподіл з функцією ймовірності у вигляді
Звичайним спряженим апріором такої функції є функція ймовірності бета-розподілу з параметрами ( , ):
де і вибираються для відображення будь-яких наявних переконань чи інформації ( = 1 і = 1 дасть рівномірний розподіл ) і Β ( , ) — бета-функція, яка діє як нормалізуюча константа .
У цьому контексті, і називаються гіперпараметрами (параметрами апріора), щоб відрізнити їх від параметрів базової моделі (тут q). Типовою характеристикою спряжених апріорів є те, що розмірність гіперпараметрів на одиницю більша, ніж розмірність параметрів вихідного розподілу. Якщо всі параметри є скалярними значеннями, то це означає, що буде на один гіперпараметр більше, ніж параметр; але це також стосується параметрів із векторними та матричними значеннями. (Див. загальну статтю про експоненційну сім’ю, а також розглянемо розподіл Вішарта, спряжений апріор коваріаційної матриці багатовимірного нормального розподілу, для прикладу, коли маємо справу з великою розмірністю).
Якщо ми потім виберемо цю випадкову величину і отримаємо s успіхів і f невдач, ми маємо
тобто ще один бета-розподіл з параметрами ( + s, + f ). Цей апостеріорний розподіл можна було б використовувати як апріор для більшої кількості вибірок, при цьому гіперпараметри просто щоразу додають додаткову порцію інформації щойно вона надходить.
Псевдоспостереження
ред.Часто корисно вважати гіперпараметри спряженого апріора розподілу як відповідні спостереженню певної кількості псевдоспостережень із властивостями, заданими параметрами. Наприклад, значення і бета-розподілу можна вважати відповідним успіхам і невдачам, якщо постеріорний режим використовується для вибору оптимального параметра, або успіхів і невдач, якщо для вибору оптимального параметра використовується постеріорне середнє значенняя. Загалом, для майже всіх спряжених апріорів розподілів гіперпараметри можна інтерпретувати в термінах псевдоспостережень. Це може допомогти як в інтуїтивному трактуванні часто заплутаних оновлень рівняннянь, так і для вибору розумних гіперпараметрів для апріора.
Інтерпретації
ред.Аналогія з власними функціями
ред.Спряжені апріори аналогічні власним функціям в теорії операторів, оскільки вони є розподілами, на які «оператор зумовлення» діє зрозумілим чином. Для цього треба розглянути процес перетворення апріорного в апостеріорний розподіл як оператор.
І у випадку власних функцій, і у випадку спряжених апріорів скінченновимірні простори зберігаються при дії оператора: результат виражається тією ж формою (в тому самому просторі), що й вхідні дані. Це значно спрощує аналіз, оскільки в іншому випадку матимемо справу з нескінченновимірним простором (усіх функцій, чи усіх розподілів).
А проте процеси лише аналогічні, не ідентичні: оператор зумовлення не лінійний, оскільки простір розподілів не замкнений відносто лінійної комбінації, а тільки відносно опуклою комбінацією, а апостеріор має лише ту саму форму, що й апріор, але не є його лінійним перетворенням.
Подібно до того, як можна побачити, як виявляється лінійна комбінація власних функцій при застосуванні оператора (оскільки щодо цих функцій оператор діагоналізований), можна легко проаналізувати, як опукла комбінація спряжених апріорів розвивається в зумовности; це називається використання гіпер-апріорного і є відповідником використання щільності суміші спряжених апріорів, а не одного спряженого апріора.
Динамічна система
ред.Можна розглядати умовність спряжених апріорів як задання певного роду (в дискретному часі) динамічної системи: із заданого набору гіперпараметрів вхідні дані оновлюють ці гіперпараметри, тож можна розглядати зміну гіперпараметрів як свого роду «еволюцію в часі» системи, яку можна вважати «навчанням». Різні початкові умови спричинюються до різних траєкторій. Знову ж таки таке трактування аналогічне динамічній системі, визначеній лінійним оператором, однак зауважте, що оскільки різні вибірки призводять до різних результатів, тут маємо не просто залежність від часу, а скоріше від потоку даних у часі. Для пов’язаних підходів див. Рекурсивна байєсівська оцінка та Засвоєння даних .
Практичний приклад
ред.Припустимо, у вашому місті працює служба прокату автомобілів. Водії можуть залишати та брати автомобілі в будь-якому місці в межах міста. Ви можете знайти та орендувати авто за допомогою програми.
Припустимо, ви хочете знайти ймовірність того, що ви зможете знайти авто для оренди на невеликій відстані від вашої домашньої адреси в будь-який час доби.
Протягом трьох днів ви переглядаєте додаток і знаходите таку кількість автомобілів на невеликій відстані від вашої домашньої адреси:
Якщо ми припустимо, що дані отримані з розподілу Пуассона, ми можемо обчислити оцінку максимальної правдоподібності параметра моделі Використовуючи цю оцінку максимальної ймовірності, ми можемо обчислити ймовірність того, що в певний день буде принаймні один автомобіль:
Цей розподіл Пуассона, який, скоріш за все, породив бачені нами дані . Але дані також могли бути отримані з іншого розподілу Пуассона, наприклад, з , або , тощо Насправді існує нескінченна кількість розподілів Пуассона, які могли б генерувати спостережувані дані, і з відносно невеликою кількістю спостережень ми не можемо бути досить впевнені щодо того, який саме розподіл Пуассона згенерував ці дані. Інтуїтивно ми повинні замість цього взяти середнє зважене значення ймовірності для кожного з цих розподілів Пуассона, зважених значенням того наскільки вони ймовірні, враховуючи дані, які ми спостерігали .
Як правило, ця величина відома як апостеріорний прогнозний розподіл де це нова точка даних, є спостережуваними даними і є параметрами моделі. Використовуючи теорему Баєса, можна розширити тому Як правило, цей інтеграл важко обчислити. Однак, якщо ви виберете спряжений апріорний розподіл , можна отримати явну формулу. Її можна знайти в останньому стовпці в таблицях нижче.
Повертаючись до нашого прикладу, якщо виберемо гамма-розподіл як наш апріорний розподіл параметра в розподілі Пуассона, то постеріорним розподілом для передбачення буде негативний біноміальний розподіл, як видно з останнього стовпця таблиці нижче. Гамма-розподіл параметризується двома гіперпараметрами які ми маємо вибрати. Зважаючи на графіки гамма-розподілу, вибираємо , що, видається обґрунтованим апріором для середньої кількості автівок. Вибір апріорних гіперпараметрів за своєю суттю є суб’єктивним і заснований на попередніх знаннях і досвіді.
Враховуючи апріорні гіперпараметри і ми можемо обчислити постеріорні гіперпараметри і
Враховуючи постеріорні гіперпараметри, ми можемо нарешті обчислити апостеріорний прогноз
Ця набагато більш консервативна оцінка відображає невизначеність параметрів моделі, яку враховує постеріорний прогноз.
Таблиця спряжених розподілів
ред.Нехай n - кількість спостережень. У всіх нижченаведених випадках передбачається, що дані складаються з n точок (які будуть випадковими векторами у багатовимірних випадках).
Якщо функція правдоподібності належить експоненціальному сімейству, то спряжений апріор існує, часто також з експоненціального сімейства.
Коли функція правдоподібності є дискретним розподілом
ред.Правдоподібність | Параметри моделі | Розподіл спряженого апріора | Гіперпараметри апріора | Гіперпараметри постреріора[note 1] | Інтерпретація гіперпараметрів | Постеріорний прогнозний розподіл[note 2] |
---|---|---|---|---|---|---|
Бернуллі | p (ймовірність) | Бета | успіхи, невдачі[note 3] | |||
Біноміальний | p (ймовірність) | Бета | успіхи, невдачі[note 3] | (Бета-біноміальний) | ||
Від'ємний біноміальний з відомою кількістю невдач, r |
p (ймовірність) | Бета | число всіх успіхів, невдачі[note 3] (тобто, експериментів, за умови, що фіксоване) | |||
Пуассон | λ (темп) | Гамма | загальна кількість випадань в інтервалах | (Від'ємний біноміальний) | ||
[note 4] | загальна кількість випадань в інтервалах | (Від'ємний біноміальний) | ||||
Категорійний | p (вектор ймовірності), k (число категорій; тобто, розмірність p) | Діріхле | де число спостережень в категорії i | число випадінь категорії [note 3] | ||
Поліноміальний | p (вектор ймовірності), k (число категорій; тобто, розмірність p) | Діріхле | число випадінь категорії [note 3] | (Dirichlet-multinomial[en]) | ||
Гіпергеометричний з відомим розміром загальної популяції, N |
M (цільове число членів) | Бета-біноміальний[4] | успіхи, невдачі[note 3] | |||
Геометричний | p0 (ймовірність) | Бета | експерименти, всі невдачі[note 3] |
Коли функція ймовірності є безперервним розподілом
ред.Ця стаття містить неперекладені фрагменти іноземною мовою. |
Правдоподібність | Параметри моделі | Розподіл спряженого апріора | Гіперпараметри апріора | Гіперпараметри постреріора[note 1] | Інтерпретація гіперпараметрів | Постеріорний прогнозний розподіл[note 5] | |
---|---|---|---|---|---|---|---|
Нормальний з відомою дисперсією σ2 |
μ (середнє) | Нормальний | mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | [5] | |||
Нормальний with known precision τ |
μ (середнє) | Нормальний | mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | ||||
Нормальний з відомим середнім μ |
σ2 (дисперсія) | Обернений гамма | variance was estimated from observations with sample variance (i.e. with sum of squared deviations , where deviations are from known mean ) | ||||
Нормальний з відомим середнім μ |
σ2 (дисперсія) | Scaled inverse chi-squared | variance was estimated from observations with sample variance | ||||
Нормальний з відомим середнім μ |
τ (прецизійність) | Гамма | precision was estimated from observations with sample variance (i.e. with sum of squared deviations , where deviations are from known mean ) | ||||
Нормальний | μ і σ2 за умови взаємозамінности |
Normal-inverse gamma |
|
mean was estimated from observations with sample mean ; variance was estimated from observations with sample mean and sum of squared deviations | |||
Нормальний | μ і τ за умови взаємозамінности |
Normal-gamma |
|
mean was estimated from observations with sample mean , and precision was estimated from observations with sample mean and sum of squared deviations | |||
Багатовимірний нормальний з відомою матрицею коваріації Σ | μ (вектор середнього) | Багатовимірний нормальний |
|
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | |||
Багатовимірний нормальний з відомою матрицею прецизійності Λ | μ (вектор середнього) | Багатовимірний нормальний |
|
mean was estimated from observations with total precision (sum of all individual precisions) and with sample mean | |||
Багатовимірний нормальний з відомим середнім μ | Σ (матриця коваріації) | Inverse-Wishart | covariance matrix was estimated from observations with sum of pairwise deviation products | ||||
Багатовимірний нормальний з відомим середнім μ | Λ (матриця прецизійності) | Wishart | covariance matrix was estimated from observations with sum of pairwise deviation products | ||||
Багатовимірний нормальний | μ (вектор середнього) і Σ (матриця коваріації) | normal-inverse-Wishart |
|
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products | |||
Багатовимірний нормальний | μ (вектор середнього) і Λ (матриця прецизійності) | normal-Wishart |
|
mean was estimated from observations with sample mean ; covariance matrix was estimated from observations with sample mean and with sum of pairwise deviation products | |||
Рівномірний | Парето | observations with maximum value | |||||
Парето з відомим мінімумом xm |
k (форма) | Гамма | observations with sum of the order of magnitude of each observation (i.e. the logarithm of the ratio of each observation to the minimum ) | ||||
Weibull з відомим параметром форми β |
θ (масштаб) | Обернений гамма | observations with sum of the β'th power of each observation | ||||
Логнормальний | Same as for the normal distribution after applying the natural logarithm to the data for the posterior hyperparameters. Please refer to page 21 and 22 [4] to see the details. | ||||||
Експоненційний | λ (темп) | Гамма | observations that sum to | (Lomax distribution) | |||
Гамма з відомим параметром α |
β (темп) | Гамма | observations with sum | ||||
Обернений гамма з відомим параметром форми α |
β (обернений масштаб) | Гамма | observations with sum | ||||
Гамма з відомим параметром темпу β |
α (форма) | or observations ( for estimating , for estimating ) with product | |||||
Гамма | α (форма), β (обернений масштаб) | was estimated from observations with product ; was estimated from observations with sum | |||||
Beta | α, β | and were estimated from observations with product and product of the complements |
Див. також
ред.Примітки
ред.- ↑ а б Позначається тими ж символами що й апріорні гіперпараметри з апострофами('). Наприклад позначається
- ↑ Це постеріорний прогнозний розподіл нової точки зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів.
- ↑ а б в г д е ж Точна інтерпретація параметрів бета-розподілу з точки зору кількості успіхів і невдач залежить від того, яка функція використовується для отримання точкової оцінки з розподілу. Матсподівання бета-розподілу обчислюється як що відповідає успіхам і невдачам, тоді як його мода дорівнює що відповідає успіхам і невдачам. У Баєсівських обчисленнях точкових оцінок віддають перевагу постеріорному матсподіванню перед постеріорною модою, ґрунтуючись на квадратичній функції втрат, до того ж використання і математично зручніше, тоді як перевагою використання і є те, що рівномірний апріор відповідає випадку коли маємо 0 успіхів і 0 невдач. Аналогічні міркування мають місце при використанні розподілу Діріхле.
- ↑ β темп зміни чи обернений до параметра масштабу. В параметризації Гамма-розподіл, θ = 1/β і k = α.
- ↑ Це постеріорний прогнозний розподіл нової точки зумовлений спостереженими точками (наявною інформацією), що мають парпметри граничного розподілу. Змінні з апострофами позначають постеріорні значення параметрів. and позначають нормальний розподіл і t-розподіл Стьюдента або ж багатовимірний нормальний розподіл і багатовимірний t-розподіл Стьюдента у багатовиміних випадках відповідно.
Джерела
ред.- ↑ Howard Raiffa and Robert Schlaifer. Applied Statistical Decision Theory. Division of Research, Graduate School of Business Administration, Harvard University, 1961.
- ↑ Jeff Miller et al. Earliest Known Uses of Some of the Words of Mathematics [Архівовано 4 березня 2009 у Wayback Machine.], "conjugate prior distributions" [Архівовано 1 травня 2011 у Wayback Machine.]. Electronic document, revision of November 13, 2005, retrieved December 2, 2005.
- ↑ For a catalog, see Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2003). Bayesian Data Analysis (вид. 2nd). CRC Press. ISBN 1-58488-388-X.
- ↑ а б Daniel Fink (May 1997). A Compendium of Conjugate Priors (PDF). Архів оригіналу (PDF) за 4 травня 2021. Процитовано 16 січня 2022. (англ.)
- ↑ Murphy, Kevin P. (2007), Conjugate Bayesian analysis of the Gaussian distribution (PDF), архів оригіналу (PDF) за 18 січня 2022, процитовано 18 січня 2022