Баєсове ієрархічне моделювання

Ба́єсове ієрархі́чне моделюва́ння (англ. Bayesian hierarchical modelling) — це статистична модель, написана в декілька рівнів (ієрархічний вигляд), яка оцінює параметри[en] апостеріорного розподілу із застосуванням баєсового методу.[1] Підмоделі об'єднуються для утворення ієрархічної моделі, а для поєднання їх в одне ціле зі спостережуваними даними та врахуванням всієї присутньої невизначеності застосовується теорема Баєса. Результатом цього поєднання є апостеріорний розподіл, відомий також як уточнена оцінка ймовірності за отримання додаткового свідчення про апріорний розподіл.

Частотницька статистика, популярніша основа статистики[en], може видавати висновки, здавалося би, несумісні з тими, що пропонує баєсова статистика, через баєсове трактування параметрів як випадкових змінних, і використання суб'єктивної інформації у встановленні припущень стосовно цих параметрів.[2] Оскільки ці підходи дають відповіді на різні питання, то формальні результати не є технічно суперечливими, але ці два підходи не погоджуються стосовно того, яка відповідь є доречною для певного застосування. Баєсівці переконують, що доречною інформацією стосовно ухвалення рішень та уточнення переконань нехтувати не можна, і що ієрархічне моделювання має потенціал взяти гору над класичними методами в застосуваннях, в яких доповідачі дають декілька варіантів даних спостережень. Більше того, ця модель довела свою робастність, з меншою чутливістю апостеріорного розподілу до гнучкіших ієрархічних апріорних.

Ієрархічне моделювання застосовують, коли інформація є доступною на декількох різних рівнях одиниць вимірювання. Ієрархічна форма аналізу та організації допомагає в розумінні багатопараметрових задач, а також відіграє важливу роль у розробці обчислювальних стратегій.[3]

Філософія ред.

Численні статистичні застосування передбачають декілька параметрів, які можливо розглядати як пов'язані або взаємопоєднані таким чином, що ця задача передбачає залежність моделі спільної ймовірності для цих параметрів.[4] Окремі міри переконань, виражені у вигляді ймовірностей, мають свою невизначеність.[5] Крім цього, є зміна мір переконань з часом. Як було зазначено професором Хосе Бернардо[en] та професором Адріаном Смітом[en], «Реальність процесу навчання складається з розвитку окремих та суб'єктивних переконань про дійсність.» Ці суб'єктивні ймовірності залучаються в розумі пряміше, ніж фізичні ймовірності.[6] Відтак, саме через цю потребу уточнювати переконання баєсівці сформулювали альтернативну статистичну модель, яка враховує попереднє трапляння певної події.[7]

Теорема Баєса ред.

Передбачуване трапляння реальної події зазвичай змінюватиме переваги між певними варіантами. Це здійснюється змінюванням мір переконання, закріплених особою за подіями, що визначають ці варіанти.[8]

Припустімо, що в дослідженні дієвості серцевого лікування з пацієнтами лікарні j, що має ймовірність виживання  , ймовірність виживання уточнюватиметься траплянням y, події створення гіпотетичної дискусійної сироватки, яка, як дехто вважає, збільшує виживаність серцевих пацієнтів.

Щоби зробити уточнені ймовірнісні твердження про  , маючи трапляння події y, ми мусимо почати з моделі, яка забезпечує спільний розподіл імовірності для   та y. Це може бути записано як добуток двох розподілів, які часто називають апріорним розподілом   та вибірковим розподілом   відповідно:

 

З використанням основної властивості умовної ймовірності, апостеріорний розподіл дасть:

 

Це рівняння, що показує взаємозв'язок між умовною ймовірністю та окремими подіями, відоме як теорема Баєса. Цей простий вираз містить у собі технічне ядро баєсового висновування, що має на меті конструювання уточненого переконання,  , доречними та розв'язними способами.[8]

Взаємозамінюваність ред.

Звичною відправною точкою статистичного аналізу є припущення, що n значень   є взаємозамінюваними. Якщо не доступно жодної інформації, крім даних y, щоби відрізняти будь-яке з   від інших, і неможливо зробити жодного впорядкування чи групування параметрів, то необхідно виходити з симетричності серед параметрів у їхньому апріорному розподілі.[9] Цю симетрію ймовірнісно представлено взаємозамінюваністю. Загалом, маючи деякий невідомий вектор параметрів   з розподілом  , корисно та доречно моделювати дані зі взаємозамінюваного розподілу, як незалежно та однаково розподілені.

Скінченна взаємозамінюваність ред.

Для незмінного числа n набір   є взаємозамінюваним, якщо спільний розподіл   є інваріантним відносно переставляння індексів. Тобто, для кожного переставлення   або   індексів (1, 2, …, n),  [10]

Наступний приклад є взаємозамінюваним, але не незалежним та однаково розподіленим (НОР): Розгляньмо глек із червоною та синьою кулями всередині, з імовірністю   витягання кожної. Кулі витягують без повернення, тобто після витягування однієї кулі з n куль для наступного витягування там залишатиметься n − 1 куль.

Нехай   якщо  -та куля є червоною
інакше.

Оскільки ймовірність обрання червоної кулі в першому витягуванні та синьої кулі у другому витягуванні дорівнює ймовірності обрання синьої кулі в першому витягуванні та червоної кулі в другому, обидві з яких дорівнюють 1/2 (тобто,  ), то   та   є взаємозамінюваними.

Але ймовірністю обрання червоної кулі в другому витягуванні, коли червону кулю вже було обрано в першому, є 0, і вона не дорівнює ймовірності обрання червоної кулі в другому витягуванні, яка дорівнює 1/2 (тобто,  ). Таким чином,   та   не є незалежними.

Якщо   є незалежними та однаково розподіленими, то вони є взаємозамінюваними, але обернене є не обов'язково істинним.[11]

Нескінченна взаємозамінюваність ред.

Нескінченна взаємозамінюваність — це така властивість, що кожна скінченна підмножина нескінченної послідовності  ,   є взаємозамінюваною. Тобто, для будь-якого n послідовність   є взаємозамінюваною.[11]

Ієрархічні моделі ред.

Складові ред.

Баєсове ієрархічне моделювання при виведенні апостеріорного розподілу використовує два важливі поняття,[1] а саме:

  1. Гіпермараметри: параметри апріорного розподілу
  2. Гіперапріорні: розподіли гіперпараметрів

Припустімо, що випадкова змінна Y слідує нормальному розподілові з параметром θ як середнє та 1 як дисперсія, тобто,  . Припустімо також, що параметр   має розподіл, заданий нормальним розподілом із середнім   та дисперсією 1, тобто,  . Більше того,   слідує іншому заданому розподілові, наприклад, стандартному нормальному розподілові,  . Параметр   називають гіперпараметром, тоді як його розподіл, заданий як  , є прикладом гіперапріорного розподілу. Запис розподілу Y змінюється із додаванням нового параметру, тобто,  . Якщо є додатковий рівень, скажімо,   слідує іншому нормальному розподілові з середнім   та дисперсією  , що означає  , то    та   також може бути названо гіперпараметрами, тоді як їхні розподіли є також гіперапріорними розподілами.[4]

Система ред.

Нехай   є спостереженням, а   — параметром, що регулює процес породжування даних для  . Припустімо далі, що параметри   породжуються взаємозамінювано зі спільної генеральної сукупності, з розподілом, керованим гіперпараметром  .

Ця баєсова ієрархічна модель містить наступні рівні:

Рівень I:  
Рівень II:  
Рівень III:  

Правдоподібністю, як видно на рівні I, є  , з   як її апріорним розподілом. Зауважте, що ця правдоподібність залежить від   лише через  .

Апріорний розподіл з рівня I може бути розбито як

  [з визначення умовної ймовірності]

з   як його гіперпараметром з гіперапріорним розподілом  .

Таким чином, апостеріорний розподіл є пропорційним до:

  [із застосуванням теореми Баєса]
 [12]

Приклад ред.

Щоби додатково проілюструвати це, розгляньмо наступний приклад.

Вчитель хоче оцінити, наскільки добре учень виконав свій тест SAT. Щоби оцінити це, він використовує інформацію про бали цього учня в старшій школі, та його поточний середній бал (grade point average, GPA). Його поточний середній бал, позначуваний через  , має правдоподібність, задану деякою функцією ймовірності з параметром  , наприклад,  . Цей параметр   є оцінкою SAT учня. Оцінку SAT розглядають як зразок, що береться зі спільного розподілу генеральної сукупності, проіндексованого за іншим параметром  , що є балом цього учня зі старшої школи.[13] Тобто,  . Крім того, гіперпараметр   слідує своєму власному розподілові, заданому  , гіперапріорному.

Щоби отримати розв'язок для оцінки SAT, маючи інформацію про GPA,

 
 

Для отримання розв'язку для апостеріорного розподілу буде використано всю інформацію в задачі. Замість розв'язування з використанням лише апріорного розподілу та функції правдоподібності, використання гіперапріорних дає більше інформації для отримування точніших переконань про поведінку параметра.[14]

Дворівнева ієрархічна модель ред.

Загалом, спільним апостеріорним розподілом, що нас цікавить, у дворівневій ієрархічній моделі є:

 
 [14]

Трирівнева ієрархічна модель ред.

Для трирівневої ієрархічної моделі апостеріорний розподіл задається так:

 
 [14]

Примітки ред.

  1. а б Allenby, Rossi, McCulloch (January 2005). "Hierarchical Bayes Model: A Practitioner’s Guide" [Архівовано 29 серпня 2017 у Wayback Machine.]. Journal of Bayesian Applications in Marketing [Архівовано 18 жовтня 2017 у Wayback Machine.], pp. 1–4. Retrieved 26 April 2014, p. 3 (англ.)
  2. Gelman, Andrew; Carlin, John B.; Stern, Hal S.; Rubin, Donald B. (2004). Bayesian Data Analysis (вид. second). Boca Raton, Florida: CRC Press. с. 4—5. ISBN 1-58488-388-X. Архів оригіналу за 2 червня 2014. Процитовано 15 липня 2018. {{cite book}}: Проігноровано невідомий параметр |last-author-amp= (довідка) (англ.)
  3. Gelman та ін., 2004, с. 6.
  4. а б Gelman та ін., 2004, с. 117.
  5. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”[недоступне посилання з 01.07.2017]. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 [Архівовано 15 липня 2018 у Wayback Machine.]. Springer – Verlag, p. 480 (ісп.)
  6. Good, I.J. (February 1980). “Some history of the hierarchical Bayesian methodology”[недоступне посилання з 01.07.2017]. Trabajos de Estadistica Y de Investigacion Operativa Volume 31 Issue 1 [Архівовано 15 липня 2018 у Wayback Machine.]. Springer – Verlag, pp. 489–490 (ісп.)
  7. Bernardo, Smith(1994). Bayesian Theory [Архівовано 26 липня 2020 у Wayback Machine.]. Chichester, England: John Wiley & Sons, ISBN 0-471-92416-4, p. 23 (англ.)
  8. а б Gelman та ін., 2004, с. 6–8.
  9. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” [Архівовано 26 липня 2020 у Wayback Machine.]. Bayesian Statistics 2 [Архівовано 26 липня 2020 у Wayback Machine.]. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 167–168 (англ.)
  10. Gelman та ін., 2004, с. 121–125.
  11. а б Diaconis, Freedman (1980). “Finite exchangeable sequences”. Annals of Probability, pp. 745–747 (англ.)
  12. Bernardo, Degroot, Lindley (September 1983). “Proceedings of the Second Valencia International Meeting” [Архівовано 26 липня 2020 у Wayback Machine.]. Bayesian Statistics 2 [Архівовано 26 липня 2020 у Wayback Machine.]. Amsterdam: Elsevier Science Publishers B.V, ISBN 0-444-87746-0, pp. 371–372 (англ.)
  13. Gelman та ін., 2004, с. 120–121.
  14. а б в Box G. E. P., Tiao G. C. (1965). "Multiparameter problem from a bayesian point of view". Multiparameter Problems From A Bayesian Point of View Volume 36 Number 5 [Архівовано 15 січня 2019 у Wayback Machine.]. New York City: John Wiley & Sons, ISBN 0-471-57428-7 (англ.)