Тематичне моделювання

Тематичне моделювання — спосіб побудови моделі колекції текстових документів, яка визначає, до яких тем належить кожен з документів^[1].

Тематична модель (англ. topic model) колекції текстових документів визначає, до яких тем належить кожен документ, і які слова (терміни) утворюють кожну тему^[2].

Перехід з простору термінів в простір знайдених тематик допомагає вирішувати синонімію і полісемію термінів, а також ефективніше вирішувати такі завдання як тематичний пошук, класифікація, сумаризація і анотація колекцій документів і новинних потоків.

Тематичне моделювання як вид статистичних моделей для знаходження прихованих тем, що зустрічаються в колекції документів, знайшло своє застосування в таких областях як машинне навчання і обробка природної мови. Дослідники використовують різні тематичні моделі для аналізу текстів, текстових архівів документів, для аналізу зміни тем у наборах документів^[⇨]. Інтуїтивно розуміючи, що документ відноситься до певної теми, в документах, присвячених одній темі, можна зустріти деякі слова частіше за інші. Наприклад, слова «собака» і «кістка» зустрічаються частіше в документах про собак; «кішки» і «молоко» будуть зустрічатися в документах про кошенят, прийменники «в» та «на» будуть зустрічатися в обох тематиках. Зазвичай документ стосується кількох тем в різних пропорціях. Таким чином, для документу, в якому 10 % теми складають кішки, а 90 % теми — собаки, можна припустити, що слів про собак в 9 разів більше. Тематичне моделювання відображає цю інтуїцію в математичній структурі, яка дозволяє на підставі вивчення колекції документів і дослідження частотних характеристик слів в кожному документі зробити висновок, що кожен документ — це деякий баланс тем.

Найбільше застосування в сучасних додатках знаходять підходи, що ґрунтуються на Баєсових мережах — імовірнісних моделях на орієнтованих графах. Імовірнісні тематичні моделі — це відносно молода область досліджень в теорії некерованого навчання. Одним з перших був запропонований імовірнісний латентно-семантичний аналіз (PLSA)^[⇨], заснований на принципі максимуму правдоподібності, як альтернатива класичним методам кластеризації, заснованим на обчисленні функцій відстані. Слідом за PLSA був запропонований метод прихованого розподілу Діріхле^[en] і його численні узагальнення^[3]^[⇨].

Імовірнісні тематичні моделі здійснюють «м'яку» кластеризацію, дозволяючи документу або терміну відноситися відразу до декількох тем з різними ймовірностями. Імовірнісні тематичні моделі описують кожну тему дискретним розподілом на множині термінів, кожен документ — дискретним розподілом на множині тем. Передбачається, що колекція документів — це послідовність термінів, обраних випадково і незалежно з суміші таких розподілів, і ставиться завдання відновлення компонентів суміші по вибірці^[4]^[⇨].

Хоча тематичне моделювання традиційно описувалося і застосовувалося в обробці природної мови, воно знайшло своє застосування і в інших областях, наприклад, таких як біоінформатика.

Історія ред.

Перший опис тематичного моделювання з'явилося в роботі Рагавана, Пападімітріу, Томакі і Вемполи 1998 року^[5]. Томас Гофман в 1999 році^[6] запропонував імовірнісне приховане семантичне індексування (PLSI). Одна з найпоширеніших тематичних моделей – це латентне розміщення Діріхле^[en] (LDA). Ця модель є узагальненням імовірнісного семантичного індексування і розроблена Девідом Блеєм^[en], Ендрю Ином і Майклом Джорданом^[en] у 2002 році^[7]. Інші тематичні моделі, як правило, є розширенням LDA, наприклад, розміщення патінко^[en] покращує LDA за рахунок введення додаткових кореляційних коефіцієнтів для кожного слова, яке становить тему.

Тематичні дослідження ред.

Темплтон зробив огляд робіт з тематичного моделювання в гуманітарних науках, згрупованих за синхронним і діахронічним підходом^[8]. Синхронні підходи виділяють теми в певний момент часу, наприклад, Джокерс за допомогою тематичної моделі досліджував, про що писали блогери в День цифрових гуманітарних наук в 2010 році^[9].

Діахронічні підходи, включаючи визначення Блока та Ньюмана про часову динаміку тем у Пенсільванській газеті 1728-1800 року^[10]. Грифітс і Стейверс використовували тематичне моделювання для оглядів журналу PNAS, визначали зміни популярності тем з 1991 по 2001 рік^[11]. Блевін створив тематичну модель щоденника Марти Балладс^[12]. Мімно використовував тематичне моделювання для аналізу 24 журналів з класичної філології та археології за 150 років, щоб визначити зміни популярності тем і дізнатися, наскільки сильно змінилися журнали за цей час^[13].

Алгоритми тематичного моделювання ред.

У роботі Девіда Блея «Введення в тематичне моделювання» розглянуто найбільш популярний алгоритм – Латентне розміщення Діріхле^[⇨]^[14]. На практиці дослідники використовують одну з евристик методу максимальної правдоподібності, методи сингулярного розкладу (SVD), метод моментів, алгоритм, заснований на невід'ємній матриці факторизації (NMF), імовірнісні тематичні моделі, імовірнісний латентно-семантичний аналіз, латентне розміщення Діріхле. У роботі Воронцова К. В. розглянуто варіації основних алгоритмів тематичного моделювання: робастна тематична модель, тематичні моделі класифікації, динамічні тематичні моделі, ієрархічні тематичні моделі, багатомовні тематичні моделі, моделі тексту як послідовності слів, багатомодальні тематичні моделі ^[2].

Імовірнісні тематичні моделі засновані на наступних припущеннях^[15]^[16]^[17]^[18]:

Порядок документів у колекції не має значення
Порядок слів у документі не має значення, документ – мішок слів
Слова, що зустрічаються часто в більшості документів, не важливі для визначення тематики
Колекцію документів можна представити як вибірку пар документ-слово $(d,w)$ , $d\in D$ , $w\in {\mathit {W}}_{d}$
Кожна тема $t\in T$ описується невідомим розподілом $p({\mathit {W}}|t)$ на множині слів $w\in {\mathit {W}}$
Кожен документ $d\in D$ описується невідомим розподілом $p(t|d)$ на множині тем $t\in T$
Гіпотеза умовної незалежності $p(w|t,d)=p(w|t)$

Побудувати тематичну модель – значить, знайти матриці $\Phi =||p(w|t)||$ та $\Theta =||p(t|d)||$ по колекції ${\mathit {D}}$ . У більш складних імовірнісних тематичних моделях деякі з цих припущень замінюються більш реалістичними.

Імовірнісний латентно-семантичний аналіз ред.

Імовірнісний латентно-семантичний аналіз (PLSA).

d

— документ,

w

— слово,

d,w

— спостережувані змінні,

t

— тема (прихована змінна),

p(d)

— апріорний розподіл на множині документів,

p(w|t),p(t|d)

— шукані умовні розподілу,

D

— колекція документів,

N

— довжина документа в словах

Імовірнісний латентно-семантичний аналіз^[en] (PLSA) запропонований Томасом Гофманом у 1999 році. Імовірнісна модель появи пари «документ-слово» може бути записана трьома еквівалентними способами:

p(d,w)=\sum _{t\in T}p(t)p(w|t)p(d|t)=\sum _{t\in T}p(d)p(w|t)p(t|d)=\sum _{t\in T}p(w)p(t|w)p(d|t)

де $T$ — множина тем;

p(t)

— невідомий апріорний розподіл тем у всій колекції;

p(d)

— апріорний розподіл на множині документів, емпірична оцінка

p(d)=n_{d}/n

, де

n=\sum _{d}n_{d}

— сумарна довжина всіх документів;

p(w)

— апріорний розподіл на множині слів, емпірична оцінка

p(w)=n_{w}/n

, де

n_{w}

— число входжень слова

w

в усі документи;

Шукані умовні розподілу $p(w|t),p(t|d)$ виражаються через $p(t|w),p(d|t)$ за формулою Баєса:

$p(w|t)={\frac {p(t|w)p(w)}{\sum _{w'}p(t|w')p(w')}};\qquad p(t|d)={\frac {p(d|t)p(t)}{\sum _{t'}p(d|t')p(t')}}.$

Для ідентифікації параметрів тематичної моделі по колекції документів застосовується принцип максимуму правдоподібності, який призводить до задачі максимізації функціоналу^[19]

$\sum _{d\in D}\sum _{w\in d}n_{dw}\ln \sum _{t\in \mathrm {T} }\varphi _{wt}\theta _{td}\to \max _{\Phi ,\Theta },$

при обмеженнях нормування

$\sum _{w}p(w|t)=1,\;\sum _{t}p(t|d)=1,\;\sum _{t}p(t)=1,$ де $n_{dw}$ — число входжень слова $w$ у документ $d$ . Для вирішення даної оптимізаційної задачі зазвичай застосовується EM-алгоритм.

Основні недоліки PLSA:

Число параметрів зростає лінійно по числу документів в колекції, що може призводити до перенавчання моделі.
При додаванні нового документа $d$ у колекцію, розподіл $p(t|d)$ неможливо обчислити за тими ж формулами, що і для інших документів, не перебудовуючи всю модель заново.

Латентне розміщення Діріхле ред.

Латентне розміщення Діріхле (LDA). :

w

— слово (спостережувана змінна) :

t

— тема (прихована змінна) :

D

— колекція документів :

N

— довжина документа в словах :

K

— кількість тем в колекції :

\theta

— розподіл тем у документі :

\phi

— розподіл слів в темі

Метод латентного розміщення Діріхле^[en] (LDA) був запропонований Девідом Блеєм у 2003 році.

У цьому методі усунені основні недоліки PLSA.

Метод LDA заснований на тій самій імовірнісній моделі:

$p(d,w)=\sum _{t\in T}p(d)p(w|t)p(t|d),$

при додаткових припущеннях:

вектори документів $\theta _{d}={\bigl (}p(t|d):t\in T{\bigr )}$ породжуються одним і тим же імовірнісним розподілом на нормованих $|T|$ -мірних векторах; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле $\mathrm {Dir} (\theta ,\alpha ),\;\alpha \in \mathbb {R} ^{|T|}$ ;
вектори тем $\phi _{t}={\bigl (}p(w|t):w\in W{\bigr )}$ породжуються одним і тим же імовірнісним розподілом на нормованих векторах розмірності $|W|$ ; цей розподіл зручно взяти з параметричного сімейства розподілів Діріхле $\mathrm {Dir} (\theta ,\beta ),\;\beta \in \mathbb {R} ^{|W|}$ .

Для ідентифікації параметрів моделі LDA по колекції документів застосовується семплювання Гіббса^[en], варіаційний баєсівський висновок або метод поширення очікування^[en].

Див. також ред.

Примітки ред.

↑ Коршунов, 2012.
↑ ^а ^б Воронцов, 2013.
↑ Ali10, 2010.
↑ Воронцов12, 2012.
↑ Пападимитриу, 1998.
↑ Хофманн, 1999.
↑ Блей2003, 2003.
↑ Тэмплтон, 2011.
↑ Джокерс, 2010.
↑ НьюманБлок, 2006.
↑ Грифитс, 2004.
↑ Блевин, 2010.
↑ Мимно, 2012.
↑ Блей2012, 2012.
↑ Коршунов, 2012, с. 229.
↑ Воронцов, 2013, с. 6.
↑ Воронцов13, 2013, с. 5.
↑ ВоронцовМЛ, 2013, с. 5.
↑ К. В. Воронцов. Вероятностное тематическое моделирование (PDF) (русский) .

Література ред.

Коршунов Антон; Гомзин Андрей (2012). Тематическое моделирование текстов на естественном языке (журнал) (вид. Труды Института системного программирования РАН).
Воронцов К.В. (2013). Вероятностное тематическое моделирование (PDF) (web) (вид. www.machinelearning.ru).
Воронцов К.В.; Потапенко А.А. (2012). Регуляризация, робастность и разреженность вероятностных тематических моделей (журнал) (вид. Компьютерные исследования и моделирование): 693—706.
Воронцов К.В. (2013). Аддитивная регуляризация вероятностных тематических моделей Презентация (PDF) (web) (вид. www.machinelearning.ru).
Воронцов К.В. (2013). Вероятностные тематические модели коллекции текстовых документов Презентация (PDF) (web) (вид. www.machinelearning.ru).
Марк Стейверс; Tom Griffiths (2007). Вероятностная тематическая модель. (PDF). Справочник скрытого семантического анализа. Psychology Press. ISBN 978-0-8058-5418-3. Архівовано червень 24, 2013 на сайті Wayback Machine.
Daud Ali; Li Juanzi; Zhou Lizhu; Muhammad Faqir (2010). Knowledge discovery through directed probabilistic topic models: a survey. In Proceedings of Frontiers of Computer Science in China (web) (вид. www.researchgate.net).
Christos Papadimitriou; Prabhakar Raghavan; Hisao Tamaki; Santosh Vempala (1998). Latent Semantic Indexing: A probabilistic analysis (вид. Proceedings of ACM PODS). Архів оригіналу за 9 травня 2013.
Thomas Hoffman (1999). Probabilistic Latent Semantic Indexing (PDF) (вид. Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in Information Retrieval). Архів оригіналу (PDF) за 14 грудня 2010.
David M. Blei; Andrew Y. Ng; Michael I. Jordan (2003). Latent Dirichlet Allocation (вид. Journal of Machine Learning Research). Архів оригіналу за 1 травня 2012.
David Blei (2012). Introduction to Probabilistic Topic Models (PDF) (вид. Communications of the ACM): 77—84. Архів оригіналу (PDF) за 15 лютого 2017.
David Blei; J.D. Lafferty (2009). Topic models (PDF) (web). Архів оригіналу (PDF) за 31 травня 2013.
David Blei; J.D. Lafferty (2007). Introduction to Probabilistic Topic Models (PDF) (вид. Annals of Applied Statistics): 17—35. doi:10.1214/07-AOAS114. Архів оригіналу (PDF) за 15 лютого 2017.
David Mimno (2012). Computational Historiography: Data Mining in a Century of Classics Journals (PDF) (журнал) (вид. Journal on Computing and Cultural Heritag). doi:10.1145/2160165.2160168.
Matthew L. Jockers (2010). Who's your DH Blog Mate: Match-Making the Day of DH Bloggers with Topic Modeling (web).
E. Микс (2011). Понимание цифровых гуманитарных наук (web).
C. Тэмплтон (2011). Тематическое моделирование в гуманитарных науках: обзор (web) (вид. Maryland Institute for Technology in the Humanities Blog).
T. Гифитс; М. Стейверс (2004). Нахождение научных тем (журнал) (вид. Proceedings of the National Academy of Sciences). doi:10.1073/pnas.0307752101. PMID 14872004.
T. Янг; A Торгет; Р. Mihalcea (2011). Тематическое моделирование в исторических газетах (PDF) (журнал) (вид. Proceedings of the 5th ACL-HLT Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities. The Association for Computational Linguistics, Madison): 96—104. Архів оригіналу (PDF) за 27 березня 2014.
С. Блок (2006). Делаем больше с оцифровкой- введение в тематическое моделирование в ранних американских источниках (журнал) (вид. Common-place The Interactive Journal of Early American Life).
Д. Ньюман; С. Блок (2006). Вероятностное тематическое разложение в газетах 18 века (PDF) (журнал) (вид. Journal of the American Society for Information Science and Technology). doi:10.1002/asi.20342.
C. Блевин (2010). Тематическое моделирование дневника Марты Баллардс (web) (вид. historying).

Посилання ред.

Лекция: Тематическое моделирование — К. В. Воронцов // Школа аналізу даних (відео-лекції).
Лекция 2: Тематическое моделирование — К. В. Воронцов // Школа аналізу даних (відео-лекції).
Тематическое моделирование.
Коллекции документов для тематического моделирования.
Полностью разреженные тематические модели (перевод) / Fully Sparse Topic Models (PDF).
Обзор по вероятностным тематическим моделям (PDF).
Тематические модели для коллекции текстов (PDF).
Байесовские методы машинного обучения (курс лекций, Д. П. Ветров, Д. А. Кропотов).
Тепллтон, Клай. Тематическое моделирование в гуманитарных науках. Общий обзор (вид. Maryland Institute for Technology in the Humanities).
Применение тематического моделирования для анализа новостей и ревю. Video of a Google Tech Talk presentation by Alice Oh on topic modeling with Latent Dirichlet allocation
Моделирование науки: Динамическое тематическое моделирование научных исследований. Video of a Google Tech Talk presentation by David M. Blei
Автоматизированная тематическая модель в политической науке. Video of a presentation by Brandon Stewart at the Tools for Text Workshop, 14 June 2010
Лекция: Тематическое моделирование — Дэвид Блей 2009 г. Відео-лекція від Принстонського університету
Регуляризация вероятностных тематических моделей для повышения интерпретируемости и определения числа тем Диалог 2014
Parsimonious Topic Models with Salient Word Discovery

Програмне забезпечення та програмні бібліотеки ред.

Малет (програма)
Інструментарій Стенфордського університету з тематичного моделювання
GenSim — «тематичне моделювання для людей»
LDA C# LDA in Infer.NET

[FOOTNOTEКоршунов2012-1] Коршунов, 2012.

[FOOTNOTEВоронцов2013-2] а ^б Воронцов, 2013.

[FOOTNOTEAli102010-3] Ali10, 2010.

[FOOTNOTEВоронцов122012-4] Воронцов12, 2012.

[FOOTNOTEПападимитриу1998-5] Пападимитриу, 1998.

[FOOTNOTEХофманн1999-6] Хофманн, 1999.

[FOOTNOTEБлей20032003-7] Блей2003, 2003.

[FOOTNOTEТэмплтон2011-8] Тэмплтон, 2011.

[FOOTNOTEДжокерс2010-9] Джокерс, 2010.

[FOOTNOTEНьюманБлок2006-10] НьюманБлок, 2006.

[FOOTNOTEГрифитс2004-11] Грифитс, 2004.

[FOOTNOTEБлевин2010-12] Блевин, 2010.

[FOOTNOTEМимно2012-13] Мимно, 2012.

[FOOTNOTEБлей20122012-14] Блей2012, 2012.

[FOOTNOTEКоршунов2012229-15] Коршунов, 2012, с. 229.

[FOOTNOTEВоронцов20136-16] Воронцов, 2013, с. 6.

[FOOTNOTEВоронцов1320135-17] Воронцов13, 2013, с. 5.

[FOOTNOTEВоронцовМЛ20135-18] ВоронцовМЛ, 2013, с. 5.

[19] К. В. Воронцов. Вероятностное тематическое моделирование (PDF) (русский) .

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]