Аналіз тональності тексту: відмінності між версіями

[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Немає опису редагування
Temcka.is (обговорення | внесок)
переклали статтю до кінця
Рядок 26:
* Я люблю свій телефон, але не порекомендую його будь-кому з моїх колег. (Кваліфіковані позитивні настрої, важко класифікувати)
* Наступного тижня концерт буде під правами koide9! (Нові терміни можуть бути дуже позитивними, але є нестійкі протилежності, а часто і з відомих словників).
 
== Види класифікації ==
В сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше використовується одномірний емотивний простір: позитив чи негатив (добре або погано). Однак відомі успішні випадки використання і багатовимірних просторів.
 
Основним завданням в аналізі тональності є класифікація полярності даного документа, тобто визначення, чи є виражене думку в документі або пропозиції позитивним, негативним або нейтральним. Більш розгорнуто, «поза полярності» класифікація тональності виражається, наприклад, такими емоційними станами, як «злий», «сумний» і «щасливий».
 
==== Класифікація за бінарною шкалою ====
 
Полярність документа можна визначати за бінарною шкалою. У цьому випадку для визначення полярності документа використовується два класи оцінок: позитивна чи негативна. Одним з недоліків цього підходу є те, що емоційну складову документа не завжди можна однозначно визначити, тобто документ може містити ознаки позитивної оцінки, так і негативної ознаки. Ранні роботи в цій області включають в себе праці Терні і Панга, які застосовують різні методи розпізнавання полярності оглядів товару і відгуків про фільмах відповідно. Це приклад роботи на рівні документа.
 
==== Класифікація по багатосмуговій шкалою ====
 
Можна класифікувати полярність документа по багатосмуговій шкалою, що було зроблено Пангом і Снайдером (серед інших). Ними було розширене основне завдання класифікації кіновідгуків від оцінки «позитивний або негативний» в бік прогнозування рейтингу по 3-х або 4-бальною шкалою. У той же час Снайдер провів поглиблений аналіз оглядів ресторанів, пророкуючи рейтинги їх різних властивостей, таких як їжа і атмосфера (за 5-бальною шкалою).
 
==== Системи шкалювання ====
 
Іншим методом визначення тональності є використання систем шкалювання, за допомогою чого словами, зазвичай пов'язаних з негативними, нейтральними або позитивними тональностями, ставляться відповідно числа за шкалою від -10 до 10 (від негативного до самого позитивного). Спочатку фрагмент неструктурованого тексту досліджується з допомогою інструментів та алгоритмів [[Обробка природної мови|обробки природної мови]], а потім виділені з цього тексту об'єкти та терміни аналізуються з метою розуміння значення цих слів.
 
==== Суб'єктивність/об'єктивність ====
 
Інший дослідницький напрямок — це ідентифікація суб'єктивності/об'єктивності. Це завдання зазвичай визначається як віднесення даного тексту в один з двох класів: суб'єктивний або об'єктивний. Ця проблема іноді може бути більш складною, ніж класифікація полярності: суб'єктивність слів і фраз може залежати від [[Контекст|контексту]], а об'єктивний документ може містити в собі суб'єктивні пропозиції (наприклад, новинна стаття, цитує думки людей). Більш того, як згадував Су, результати більшою мірою залежать від визначення суб'єктивності, вживаючийся в рамках анотації текстів. Як би те ні було, Панг показав, що видалення об'єктивних пропозицій з документа перед класифікацією полярності допомогло підвищити точність результатів.
 
Модель більш докладного аналізу називається аналізом на основі функції/аспекту. Ця модель посилається на ухвалу думок або настроїв, виражених різними функціями або аспектами сутностей, наприклад, у стільникового телефону, цифрової камери або банку. Властивість/аспект — це атрибут або компонент сутності, досліджуваної на тональність, наприклад, екран мобільного телефону або ж якість зйомки камери. Ця проблема вимагає вирішення ряду завдань, наприклад, ідентифікація актуальних сутностей, витяг їх функцій аспектів та визначення, є думка, висловлена по кожній функції/аспекту, позитивним, негативним або нейтральним. Більш докладні дискусії на цей рахунок можуть бути знайдені в довіднику з [[Обробка природної мови|NLP]], у главі «Аналіз тональності та суб'єктивності».
 
== Підходи до класифікації тональності ==
 
Комп'ютери можуть виконувати автоматичний аналіз цифрових текстів, використовуючи елементи [[Машинне навчання|машинного навчання]], такі як прихований семантичний аналіз, [[Метод опорних векторів|метод опорних векторів]], «мішок слів». Більш складні методи намагаються визначити володаря настроїв (тобто людини) і мета (тобто сутність, щодо якої виражаються почуття). Щоб визначити думку з урахуванням контексту, використовують граматичні відносини між словами.
 
Відносини граматичної пов'язаності отримують на основі глибокого структурного розбору тексту. Аналіз тональності може бути розділений на дві окремі категорії:
* ручний (або аналіз тональності експертами);
* автоматизований аналіз тональності.
 
Найбільш помітні відмінності між ними лежать в ефективності системи і точності аналізу. У комп'ютерних програмах автоматизованого аналізу тональності застосовують алгоритми машинного навчання, інструменти статистики і обробки природної мови, що дозволяє обробляти великі масиви тексту, включаючи [[Веб-сторінка|веб-сторінки]], онлайн-новини, тексти дискусійних груп в мережі Інтернет, онлайн-огляди, веб-блоги та [[Соціальні медіа|соціальні медіа]].
 
== Методи класифікації тональності ==
 
=== Методи, засновані на правилах і словниках ===
 
Цей метод заснований на пошуку ''емотивної лексики'' (лексичної тональності) в тексті по заздалегідь складеним тональним словників і правилам із застосуванням лінгвістичного аналізу. За сукупністю знайденої емотивної лексики текст може бути оцінений за шкалою, що містить кількість негативної та позитивної лексики. Даний метод може використовувати як списки правил, підставляються в регулярні вирази, так і спеціальні правила з'єднання тональної лексики всередині пропозиції. Щоб проаналізувати текст, можна скористатися наступним алгоритмом: спочатку кожному слову в тексті привласнити його значення тональності зі словника (якщо воно присутнє в словнику), а потім обчислити загальну тональність всього тексту шляхом підсумовування значення тональностей кожного окремого пропозиції.
 
Основною проблемою методів, заснованих на словниках і правилах, вважається трудомісткість процесу складання словника. Для того, щоб отримати метод, що класифікує документ з високою точністю, терміни словника повинні мати вагу, адекватний предметної області документа. Наприклад, слово «величезний» по відношенню до обсягу пам'яті жорсткого диска є позитивною характеристикою, але негативною по відношенню до розміру мобільного телефону. Тому даний метод вимагає значних трудовитрат, так як для хорошої роботи системи необхідно скласти велику кількість правил. Існує ряд підходів, що дозволяють автоматизувати складання словників для конкретної предметної області (наприклад, тематика ресторанів або тематика мобільних телефонів).
 
=== Машинне навчання з вчителем ===
 
У наш час найбільш часто використовуваними в дослідженнях методами є методи на основі [[Машинне навчання|машинного навчання]] з учителем. Суттю таких методів є те, що на першому етапі навчається машинний класифікатор (наприклад, байесовский) на заздалегідь розмічених текстах, а потім використовують отриману модель при аналізі нових документів. Наведемо короткий алгоритм:
# спочатку збирається колекція документів, на основі якої навчається машинний класифікатор;
# кожен документ розкладається у вигляді вектора ознак (аспектів), за якими він буде досліджуватися;
# вказується правильний тип тональності для кожного документа;
# проводиться вибір алгоритму класифікації і метод для навчання класифікатора;
# отриману модель використовуємо для визначення тональності документів нової колекції.
 
=== Машинне навчання без вчителя ===
 
В основі цього підходу лежить ідея, що терміни, які найчастіше зустрічаються в цьому [[Корпусна лінгвістика|тексті]] і в той же час присутні в невеликій кількості текстів у всій колекції мають найбільшу вагу в тексті. Виділивши ці терміни, а потім визначивши їх тональність, можна зробити висновок про тональності всього тексту.
Метод, заснований на теоретико-графових моделях
В основі цього методу використовується припущення про те, що не всі слова в текстовому корпусі документа рівнозначні. Якісь слова мають більшу вагу і сильніше впливають на тональність тексту. При використанні цього методу аналіз тональності розбивається на кілька етапів:
# побудова графа на основі досліджуваного тексту;
# ранжування його вершин;
# класифікація знайдених слів;
# обчислення результату.
 
Детальніше про пунктах 1 і 2 ви можете прочитати в роботі «Витяг термінів з російськомовних текстів за допомогою графових моделей» Д. А. Усталова.
Для класифікації слів використовується тональний словник, в якому кожне слово співвідноситься оцінка, наприклад «позитивна», «негативна» або «нейтральна». Для отримання кінцевого результату потрібно обчислити значення двох оцінок: позитивної складової тексту і негативною. Для того, щоб знайти позитивну складову тексту необхідно знайти суму тональностей всіх позитивних термінів тексту з урахуванням їх ваги. Значення негативною складовою тексту знаходиться аналогічним чином. Для підсумкової оцінки тональності всього тексту потрібно обчислити відношення цих складових за формулою: {\ displaystyle T = P / N}, де T - підсумкова оцінка тональності, P - оцінка позитивної складової тексту і N - негативна складова тексту. Відповідно до статті Меньшикова, текст, в якому значення T близьке до одиниці, буде вважатися нейтральною, якщо трохи перевищує 1 - позитивним. Якщо сильно перевершує 1, то сильно позитивним. Зворотне вірно і для текстів негативної тональності. Більш детально даний метод розглянуто в роботах Голдберга і Пономарьової.
 
== Оцінка якості аналізу тональності ==
 
Точність і якість системи аналізу тональності тексту оцінюється тим, наскільки добре вона узгоджується з думкою людини щодо емоційної оцінки досліджуваного тексту. Для цього можуть використовуватися такі показники як точність і повнота. Формула для знаходження повноти:
 
<math>R=\frac{\text{correctly extracted opinions}}{\text{total number of opinions}}
</math>
 
де ''correctly extracted opinions'' — вірно певні думки, ''total number of opinions'' — загальна кількість думок(як знайдених системою, так і не знайдених). Точність обчислюється за формулою:
 
<math>P=\frac{\text{correctly extracted opinions}}{\text{total number of opinions found by system}}
</math>
 
де ''correctly extracted opinions'' — вірно певні думки, ''total number of opinions found by system'' — загальна кількість думок знайдених системою. Таким чином, точність виражає кількість досліджуваних текстів, речень або документів, в оцінці яких думка системи аналізу тональності співпало з думкою експерта. При цьому, згідно з дослідженням, експерти зазвичай погоджуються в оцінках тональності конкретного тексту в 79% випадків. Отже, програма, яка визначає тональність тексту з точністю 70% робить це майже так само добре, як і людина.
 
{{мовознавство-доробити}}