Тематичне моделювання

Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів[1].

Побудова тематичної моделі документа: :  — матриця шуканих умовних розподілів слів за темами :  — матриця шуканих умовних розподілів тем за документами :  — документ :  — слово :  — спостережувані змінні :  — тема (прихована змінна)

Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему[2].

Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків.

Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документів[⇨]. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем.

Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії некерованого навчання. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA)[⇨], заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод прихованого розподілу Діріхле[en] і його численні узагальнення[3][⇨].

Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему дискретним розподілом на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірці[4][⇨].

Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика.

Історія ред.

Перший опис тематичного моделювання з'явилося в роботі Рагавана, Пападімітріу, Томакі і Вемполи 1998 року[5]. Томас Гофман в 1999 році[6] запропонував імовірнісне приховане семантичне індексування (PLSI). Одна з найпоширеніших тематичних моделей – це латентне розміщення Діріхле[en] (LDA). Ця модель є узагальненням імовірнісного семантичного індексування і розроблена Девідом Блеєм[en], Ендрю Ином і Майклом Джорданом[en] у 2002 році[7]. Інші тематичні моделі, як правило, є розширенням LDA, наприклад, розміщення патінко[en] покращує LDA за рахунок введення додаткових кореляційних коефіцієнтів для кожного слова, яке становить тему.

Тематичні дослідження ред.

Темплтон зробив огляд робіт з тематичного моделювання в гуманітарних науках, згрупованих за синхронним і діахронічним підходом[8]. Синхронні підходи виділяють теми в певний момент часу, наприклад, Джокерс за допомогою тематичної моделі досліджував, про що писали блогери в День цифрових гуманітарних наук в 2010 році[9].

Діахронічні підходи, включаючи визначення Блока та Ньюмана про часову динаміку тем у Пенсільванській газеті 1728-1800 року[10]. Грифітс і Стейверс використовували тематичне моделювання для оглядів журналу PNAS, визначали зміни популярності тем з 1991 по 2001 рік[11]. Блевін створив тематичну модель щоденника Марти Балладс[12]. Мімно використовував тематичне моделювання для аналізу 24 журналів з класичної філології та археології за 150 років, щоб визначити зміни популярності тем і дізнатися, наскільки сильно змінилися журнали за цей час[13].

Алгоритми тематичного моделювання ред.

У роботі Девіда Блея «Введення в тематичне моделювання» розглянуто найбільш популярний алгоритм – Латентне розміщення Діріхле[⇨][14]. На практиці дослідники використовують одну з евристик методу максимальної правдоподібності, методи сингулярного розкладу (SVD), метод моментів, алгоритм, заснований на невід'ємній матриці факторизації (NMF), імовірнісні тематичні моделі, імовірнісний латентно-семантичний аналіз, латентне розміщення Діріхле. У роботі Воронцова К. В. розглянуто варіації основних алгоритмів тематичного моделювання: робастна тематична модель, тематичні моделі класифікації, динамічні тематичні моделі, ієрархічні тематичні моделі, багатомовні тематичні моделі, моделі тексту як послідовності слів, багатомодальні тематичні моделі [2].

Імовірнісні тематичні моделі засновані на наступних припущеннях[15][16][17][18]:

  • Порядок документів у колекції не має значення
  • Порядок слів у документі не має значення, документ – мішок слів
  • Слова, що зустрічаються часто в більшості документів, не важливі для визначення тематики
  • Колекцію документів можна представити як вибірку пар документ-слово   ,  ,  
  • Кожна тема   описується невідомим розподілом   на множині слів  
  • Кожен документ   описується невідомим розподілом   на множині тем  
  • Гіпотеза умовної незалежності  

Побудувати тематичну модель – значить, знайти матриці   та   по колекції  . У більш складних імовірнісних тематичних моделях деякі з цих припущень замінюються більш реалістичними.

Імовірнісний латентно-семантичний аналіз ред.

 
Імовірнісний латентно-семантичний аналіз (PLSA).   — документ,   — слово,   — спостережувані змінні,   — тема (прихована змінна),   — апріорний розподіл на множині документів,   — шукані умовні розподілу,   — колекція документів,   — довжина документа в словах

Імовірнісний латентно-семантичний аналіз[en] (PLSA) запропонований Томасом Гофманом у 1999 році. Імовірнісна модель появи пари «документ-слово» може бути записана трьома еквівалентними способами:

 

де   — множина тем;

  — невідомий апріорний розподіл тем у всій колекції;
  — апріорний розподіл на множині документів, емпірична оцінка   , де   — сумарна довжина всіх документів;
  — апріорний розподіл на множині слів, емпірична оцінка  , де   — число входжень слова   в усі документи;

Шукані умовні розподілу   виражаються через   за формулою Баєса:

 

Для ідентифікації параметрів тематичної моделі по колекції документів застосовується принцип максимуму правдоподібності, який призводить до задачі максимізації функціоналу[19]

 

при обмеженнях нормування

  де   — число входжень слова   у документ  . Для вирішення даної оптимізаційної задачі зазвичай застосовується EM-алгоритм.

Основні недоліки PLSA:

  • Число параметрів зростає лінійно по числу документів в колекції, що може призводити до перенавчання моделі.
  • При додаванні нового документа   у колекцію, розподіл   неможливо обчислити за тими ж формулами, що і для інших документів, не перебудовуючи всю модель заново.

Латентне розміщення Діріхле ред.

 
Латентне розміщення Діріхле (LDA). :  — слово (спостережувана змінна) :  — тема (прихована змінна) :  — колекція документів :  — довжина документа в словах :  — кількість тем в колекції :  — розподіл тем у документі :  — розподіл слів в темі

Метод латентного розміщення Діріхле[en] (LDA) був запропонований Девідом Блеєм у 2003 році.

У цьому методі усунені основні недоліки PLSA.

Метод LDA заснований на тій самій імовірнісній моделі:

 

при додаткових припущеннях:

  • вектори документів   породжуються одним і тим же імовірнісним розподілом на нормованих  -мірних векторах; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле  ;
  • вектори тем   породжуються одним і тим же імовірнісним розподілом на нормованих векторах розмірності  ; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле  .

Для ідентифікації параметрів моделі LDA по колекції документів застосовується семплювання Гіббса[en], варіаційний баєсівський висновок або метод поширення очікування[en].

Див. також ред.

Примітки ред.

  1. Коршунов, 2012.
  2. а б Воронцов, 2013.
  3. Ali10, 2010.
  4. Воронцов12, 2012.
  5. Пападимитриу, 1998.
  6. Хофманн, 1999.
  7. Блей2003, 2003.
  8. Тэмплтон, 2011.
  9. Джокерс, 2010.
  10. НьюманБлок, 2006.
  11. Грифитс, 2004.
  12. Блевин, 2010.
  13. Мимно, 2012.
  14. Блей2012, 2012.
  15. Коршунов, 2012, с. 229.
  16. Воронцов, 2013, с. 6.
  17. Воронцов13, 2013, с. 5.
  18. ВоронцовМЛ, 2013, с. 5.
  19. К. В. Воронцов. Вероятностное тематическое моделирование (PDF) (русский) .

Література ред.

Посилання ред.

Програмне забезпечення та програмні бібліотеки ред.