Аналіз тональності тексту: відмінності між версіями

[неперевірена версія][неперевірена версія]
Вилучено вміст Додано вміст
Temcka.is (обговорення | внесок)
Немає опису редагування
Рядок 1:
'''Емоційний аналіз тексту''' (''сентимент-аналіз'', {{lang-en|Sentiment analysis}}, {{lang-en|Opinion mining}}{{sfn|Pang, Lee|2008|p=6}}) — клас методів [[контент-аналіз]]у в [[математична лінгвістика|комп'ютерній лінгвістиці]], призначений для автоматизованого виявлення в текстах емоційно забарвленої [[лексика|лексики]] і емоційної оцінки авторів (думок) по відношенню до об'єктів, мова про які йде в тексті.
 
Тональність — це емоційне ставлення автора висловлювання до деякого об'єкту (об'єкту реального світу, події, процесу або їх властивостями / атрибутам), виражене в тексті. Емоційна складова, виражена на рівні [[Лексема|лексеми]] або комунікативного фрагмента, називається лексичної тональністю (або лексичним сентиментом). Тональність всього тексту в цілому можна визначити як функцію (в найпростішому випадку суму) лексичних тональностей складових його одиниць ([[Речення|речень]]) і правил їх поєднання{{sfn|Bing Liu|2010|p = 5}}.
 
== Приклади ==
* Цілі і завдання аналізу тональності тексту можна показати на деяких простих прикладах.
 
* Прості випадки
Цілі і завдання аналізу тональності тексту можна показати на деяких простих прикладах.
* Коронет має найкращі форми зі свіх круїзних суден.
 
=== Прості випадки ===
 
* Коронет має найкращі форми зі всіх круїзних суден.
* Бертрам має глибокий корпус V і легко проходить моря.
* У Флориді в 1980х роках робили потворні круїзні кораблі пастельних кольорів.
* Я не люблю старі {{Нп|катери з каютами|||Cabin cruiser}}.
 
=== Складніші приклади ===
{{Вичитати}}
* Я не не люблю старі катери з каютами. (Уловлювання заперечення)
* Мені не подобається керування судном. (Заперечення, перевернутий порядок слів)
* Іноді я дійсно ненавиджу {{Нп|RIB|RIBи||Rigid-hulled inflatable boat}}. (Обставинна зміна ствердження)
* Я би дійсно дуже хотів би піти прогулятись у таку погоду! (Можливий сарказм)
* Кріс Крафт виглядає краще ніє Лаймстоун (Дві торгові марки, що роблять визначення цілі дуже важким)
Рядок 27 ⟶ 23:
* Наступного тижня концерт буде під правами koide9! (Нові терміни можуть бути дуже позитивними, але є нестійкі протилежності, а часто і з відомих словників).
 
{{Ізольована стаття}}
== Види класифікації ==
[[Категорія:Аналіз]]
В сучасних системах автоматичного визначення емоційної оцінки тексту найчастіше використовується одномірний емотивний простір: позитив чи негатив (добре або погано). Однак відомі успішні випадки використання і багатовимірних просторів{{sfn|Bollen,Mao,J.Zeng|2010}}{{sfn|Pang, Lee|2008}}.
 
Основним завданням в аналізі тональності є класифікація полярності даного документа, тобто визначення, чи є виражене думку в документі або пропозиції позитивним, негативним або нейтральним. Більш розгорнуто, «поза полярності» класифікація тональності виражається, наприклад, такими емоційними станами, як «злий», «сумний» і «щасливий».
 
==== Класифікація за бінарною шкалою ====
 
Полярність документа можна визначати за бінарною шкалою. У цьому випадку для визначення полярності документа використовується два класи оцінок: позитивна чи негативна. Одним з недоліків цього підходу є те, що емоційну складову документа не завжди можна однозначно визначити, тобто документ може містити ознаки позитивної оцінки, так і негативної ознаки. Ранні роботи в цій області включають в себе праці Терні і Панга, які застосовують різні методи розпізнавання полярності оглядів товару і відгуків про фільмах відповідно. Це приклад роботи на рівні документа.
 
==== Класифікація по багатосмуговій шкалою ====
 
Можна класифікувати полярність документа по багатосмуговій шкалою, що було зроблено Пангом і Снайдером (серед інших). Ними було розширене основне завдання класифікації кіновідгуків від оцінки «позитивний або негативний» в бік прогнозування рейтингу по 3-х або 4-бальною шкалою. У той же час Снайдер провів поглиблений аналіз оглядів ресторанів, пророкуючи рейтинги їх різних властивостей, таких як їжа і атмосфера (за 5-бальною шкалою).
 
==== Системи шкалювання ====
 
Іншим методом визначення тональності є використання систем шкалювання, за допомогою чого словами, зазвичай пов'язаних з негативними, нейтральними або позитивними тональностями, ставляться відповідно числа за шкалою від -10 до 10 (від негативного до самого позитивного). Спочатку фрагмент неструктурованого тексту досліджується з допомогою інструментів та алгоритмів [[Обробка природної мови|обробки природної мови]], а потім виділені з цього тексту об'єкти та терміни аналізуються з метою розуміння значення цих слів.
 
==== Суб'єктивність/об'єктивність ====
 
Інший дослідницький напрямок — це ідентифікація суб'єктивності/об'єктивності. Це завдання зазвичай визначається як віднесення даного тексту в один з двох класів: суб'єктивний або об'єктивний. Ця проблема іноді може бути більш складною, ніж класифікація полярності: суб'єктивність слів і фраз може залежати від [[Контекст|контексту]], а об'єктивний документ може містити в собі суб'єктивні пропозиції (наприклад, новинна стаття, цитує думки людей). Більш того, як згадував Су, результати більшою мірою залежать від визначення суб'єктивності, вживаючийся в рамках анотації текстів. Як би те ні було, Панг показав, що видалення об'єктивних пропозицій з документа перед класифікацією полярності допомогло підвищити точність результатів.
 
Модель більш докладного аналізу називається аналізом на основі функції/аспекту. Ця модель посилається на ухвалу думок або настроїв, виражених різними функціями або аспектами сутностей, наприклад, у стільникового телефону, цифрової камери або банку. Властивість/аспект — це атрибут або компонент сутності, досліджуваної на тональність, наприклад, екран мобільного телефону або ж якість зйомки камери. Ця проблема вимагає вирішення ряду завдань, наприклад, ідентифікація актуальних сутностей, витяг їх функцій аспектів та визначення, є думка, висловлена по кожній функції/аспекту, позитивним, негативним або нейтральним. Більш докладні дискусії на цей рахунок можуть бути знайдені в довіднику з [[Обробка природної мови|NLP]], у главі «Аналіз тональності та суб'єктивності».
 
== Підходи до класифікації тональності ==
 
Комп'ютери можуть виконувати автоматичний аналіз цифрових текстів, використовуючи елементи [[Машинне навчання|машинного навчання]], такі як прихований семантичний аналіз, [[Метод опорних векторів|метод опорних векторів]], «мішок слів». Більш складні методи намагаються визначити володаря настроїв (тобто людини) і мета (тобто сутність, щодо якої виражаються почуття). Щоб визначити думку з урахуванням контексту, використовують граматичні відносини між словами.
 
Відносини граматичної пов'язаності отримують на основі глибокого структурного розбору тексту. Аналіз тональності може бути розділений на дві окремі категорії:
* ручний (або аналіз тональності експертами);
* автоматизований аналіз тональності.
 
Найбільш помітні відмінності між ними лежать в ефективності системи і точності аналізу. У комп'ютерних програмах автоматизованого аналізу тональності застосовують алгоритми машинного навчання, інструменти статистики і обробки природної мови, що дозволяє обробляти великі масиви тексту, включаючи [[Веб-сторінка|веб-сторінки]], онлайн-новини, тексти дискусійних груп в мережі Інтернет, онлайн-огляди, веб-блоги та [[Соціальні медіа|соціальні медіа]].
 
== Методи класифікації тональності ==
 
=== Методи, засновані на правилах і словниках ===
 
Цей метод заснований на пошуку ''емотивної лексики'' (лексичної тональності) в тексті по заздалегідь складеним тональним словників і правилам із застосуванням лінгвістичного аналізу. За сукупністю знайденої емотивної лексики текст може бути оцінений за шкалою, що містить кількість негативної та позитивної лексики. Даний метод може використовувати як списки правил, підставляються в регулярні вирази, так і спеціальні правила з'єднання тональної лексики всередині пропозиції. Щоб проаналізувати текст, можна скористатися наступним алгоритмом: спочатку кожному слову в тексті привласнити його значення тональності зі словника (якщо воно присутнє в словнику), а потім обчислити загальну тональність всього тексту шляхом підсумовування значення тональностей кожного окремого пропозиції.
 
Основною проблемою методів, заснованих на словниках і правилах, вважається трудомісткість процесу складання словника. Для того, щоб отримати метод, що класифікує документ з високою точністю, терміни словника повинні мати вагу, адекватний предметної області документа. Наприклад, слово «величезний» по відношенню до обсягу пам'яті жорсткого диска є позитивною характеристикою, але негативною по відношенню до розміру мобільного телефону. Тому даний метод вимагає значних трудовитрат, так як для хорошої роботи системи необхідно скласти велику кількість правил. Існує ряд підходів, що дозволяють автоматизувати складання словників для конкретної предметної області (наприклад, тематика ресторанів або тематика мобільних телефонів).
 
=== Машинне навчання з вчителем ===
 
У наш час найбільш часто використовуваними в дослідженнях методами є методи на основі [[Машинне навчання|машинного навчання]] з учителем. Суттю таких методів є те, що на першому етапі навчається машинний класифікатор (наприклад, байесовский) на заздалегідь розмічених текстах, а потім використовують отриману модель при аналізі нових документів. Наведемо короткий алгоритм:
# спочатку збирається колекція документів, на основі якої навчається машинний класифікатор;
# кожен документ розкладається у вигляді вектора ознак (аспектів), за якими він буде досліджуватися;
# вказується правильний тип тональності для кожного документа;
# проводиться вибір алгоритму класифікації і метод для навчання класифікатора;
# отриману модель використовуємо для визначення тональності документів нової колекції.
 
=== Машинне навчання без вчителя ===
 
В основі цього підходу лежить ідея, що терміни, які найчастіше зустрічаються в цьому [[Корпусна лінгвістика|тексті]] і в той же час присутні в невеликій кількості текстів у всій колекції мають найбільшу вагу в тексті. Виділивши ці терміни, а потім визначивши їх тональність, можна зробити висновок про тональності всього тексту.
Метод, заснований на теоретико-графових моделях
В основі цього методу використовується припущення про те, що не всі слова в текстовому корпусі документа рівнозначні. Якісь слова мають більшу вагу і сильніше впливають на тональність тексту. При використанні цього методу аналіз тональності розбивається на кілька етапів:
# побудова графа на основі досліджуваного тексту;
# ранжування його вершин;
# класифікація знайдених слів;
# обчислення результату.
 
Детальніше про пунктах 1 і 2 ви можете прочитати в роботі «Витяг термінів з російськомовних текстів за допомогою графових моделей» Д. А. Усталова.
Для класифікації слів використовується тональний словник, в якому кожне слово співвідноситься оцінка, наприклад «позитивна», «негативна» або «нейтральна». Для отримання кінцевого результату потрібно обчислити значення двох оцінок: позитивної складової тексту і негативною. Для того, щоб знайти позитивну складову тексту необхідно знайти суму тональностей всіх позитивних термінів тексту з урахуванням їх ваги. Значення негативною складовою тексту знаходиться аналогічним чином. Для підсумкової оцінки тональності всього тексту потрібно обчислити відношення цих складових за формулою: {\ displaystyle T = P / N}, де T - підсумкова оцінка тональності, P - оцінка позитивної складової тексту і N - негативна складова тексту. Відповідно до статті Меньшикова, текст, в якому значення T близьке до одиниці, буде вважатися нейтральною, якщо трохи перевищує 1 - позитивним. Якщо сильно перевершує 1, то сильно позитивним. Зворотне вірно і для текстів негативної тональності. Більш детально даний метод розглянуто в роботах Голдберга і Пономарьової.
 
== Оцінка якості аналізу тональності ==
 
Точність і якість системи аналізу тональності тексту оцінюється тим, наскільки добре вона узгоджується з думкою людини щодо емоційної оцінки досліджуваного тексту. Для цього можуть використовуватися такі показники як точність і повнота. Формула для знаходження повноти:
 
<math>R=\frac{\text{correctly extracted opinions}}{\text{total number of opinions}}
</math>
 
де ''correctly extracted opinions'' — вірно певні думки, ''total number of opinions'' — загальна кількість думок(як знайдених системою, так і не знайдених). Точність обчислюється за формулою:
 
<math>P=\frac{\text{correctly extracted opinions}}{\text{total number of opinions found by system}}
</math>
 
де ''correctly extracted opinions'' — вірно певні думки, ''total number of opinions found by system'' — загальна кількість думок знайдених системою. Таким чином, точність виражає кількість досліджуваних текстів, речень або документів, в оцінці яких думка системи аналізу тональності співпало з думкою експерта. При цьому, згідно з дослідженням, експерти зазвичай погоджуються в оцінках тональності конкретного тексту в 79% випадків. Отже, програма, яка визначає тональність тексту з точністю 70% робить це майже так само добре, як і людина.
 
 
== Посилання ==
* {{cite web
|url = http://growingsocialmedia.com/human-sentiment-analysis/
|title = Human Sentiment Analysis
|author = Washington, Erin
|date = 14-11-2013
|work = Growing Social Media
|accessdate = 2013-12-11
|lang = en
|ref = Washington
}}
 
* {{cite web
|url = http://mashable.com/2010/04/19/sentiment-analysis/
|title = How Companies Can Use Sentiment Analysis to Improve Their Business
|author = Ogneva, M
|date = 13-12-2012
|work = Mashable
|accessdate = 2013-12-11
|lang = en
|ref = Ogneva
}}
 
* {{cite web
|url = http://sentiwordnet.isti.cnr.it/
|title = SentiWordNet
|lang = en
|ref = SentiWordNet
}}
* {{cite web
|url = http://sentic.net
|title = SenticNet
|lang = en
|ref = SenticNet main
}}
 
* {{cite web
|url = http://sentic.net/api/en/concept/love/
|title = SenticNet Example
|lang = en
|ref = SenticNet api love
}}
 
* {{cite web
|url = http://sentic.net/about/
|title = SenticNet About
|lang = en
|ref = SenticNet
}}
 
* {{cite web
|url = http://sentic.net/api/
|title = SenticNet API
|lang = en
|ref = SenticNet api
}}
 
* {{cite web
|url = http://wndomains.fbk.eu/wnaffect.html
|title = WordNet-Affect
|lang = en
|ref = WordNet-Affect
}}
 
[[Категорія:Методи дослідження]]
[[Категорія:Обробка природної мови]]
[[Категорія:Психолінгвістика]]
[[Категорія:Аналіз]]
[[Категорія:Психолінгвістика]]
{{мовознавство-доробити}}
 
== Примітки ==
{{примечания|1}}
 
== Література ==
* {{статья|автор=Stefano Baccianella|заглавие=Sentiwordnet 3.0: An enhanced lexical resource for sentiment analysis and opinion mining|ссылка=http://www.lrec-conf.org/proceedings/lrec2010/pdf/769_Paper.pdf|язык=en|издание=Proceedings of LREC|тип=конференція|страницы=2200–2204|год=2010|ref=Stefano Baccianella}}
* {{статья|автор=Victoria Bobicev, Victoria Maxim, Tatiana Prodan, Natalia Burciu, Victoria Angheluş|заглавие=Emotions in words: developing a multilingual WordNet-Affect|ссылка=http://lilu.fcim.utm.md/RoRUWNAffect.pdf|язык=en|тип=[[:en:International Conference on Intelligent Text Processing and Computational Linguistics|CICLing]] 2010, [[Яссы|Iași]], Romania|страницы=1-10|год=2010|ref=Bobicev}}
* {{статья|автор=J.Bollen, H.Mao, X.-J.Zeng|заглавие=Twitter mood predicts the stock market|ссылка=http://arxiv.org/PS_cache/arxiv/pdf/1010/1010.3003v1.pdf|язык=en|издание=JTechnical Report arXiv:1010.3003, CoRR|тип=журнал|год=2010|ref=Bollen,Mao,J.Zeng}}
* {{статья|автор=Erik Cambria|заглавие=SenticNet 2: A semantic and affective resource for opinion mining and sentiment analysis|ссылка=http://aaai.org/ocs/index.php/FLAIRS/FLAIRS12/paper/viewFile/4411/4794|язык=en|издание=Proceedings of AAAI FLAIRS|тип=конференція|страницы=202–207|год=2012|ref=Erik Cambria}}
* {{статья|автор=Erik Cambria, Amir Hussain, Catherine Havasi, and Chris Eckl|заглавие=Common Sense Computing: from the Society of Mind to Digital Intuition and Beyond|ссылка=http://sentic.net/common-sense-computing.pdf|язык=en|издание=Biometric ID Management and Multimodal Communication Lecture Notes in Computer Science|тип=журнал|страницы=252-259|год=2009|ref=Erik Cambria 2009}}
 
* {{статья|автор=Andrew Goldberg, Xiaojin Zhu|заглавие=Seeing stars when there aren’t many stars:Graph-based semi-supervised learning for sentiment categorization|ссылка=http://pages.cs.wisc.edu/~jerryzhu/pub/sslsa.pdf|язык=en|издание=Proceedings of the First Workshop on Graph Based Methods for Natural Language Processing,Computer Sciences Department University of Wisconsin-Madison|тип=конференція|страницы=45-52|год=2006|ref=Goldberg, Zhu}}
* {{статья|автор=Minqing Hu, Bing Liu|заглавие=Mining and Summarizing Customer Reviews|ссылка=http://citeseerx.ist.psu.edu/viewdoc/download?rep=rep1&type=pdf&doi=10.1.1.222.9730|язык=en|издание=Proceedings of KDD|тип=конференція|год=2004|ref=Hu, Liu}}
* {{статья|автор=Nozomi Kobayashi, Ryu Iida, Kentaro Inui, Yuji Matsumoto|заглавие=Opinion Mining on the Web by Extracting Subject-Aspect-Evaluation Relations|ссылка=http://aaaipress.org/Papers/Symposia/Spring/2006/SS-06-03/SS06-03-018.pdf|язык=en|издание=Nara Institute of Science and Technology, Takayama, Ikoma, Nara 630-0192, Japan|тип=конференция|страницы=1-6|год=2006|ref=Nozomi Kobayashi}}
* {{статья|автор=Bernardo Magnini, Gabriela Cavaglia|заглавие=Integrating subject field codes into WordNet|ссылка=http://www.lrec-conf.org/proceedings/lrec2000/pdf/219.pdf|язык=en|тип=[[:en:International Conference on Language Resources and Evaluation|LREC]]|том=|страницы=|год=2000|ref=Magnini et al}}
* {{статья|автор=Bo Pang, Lillian Lee, Shivakumar Vaithyanathan|заглавие=Thumbs up? Sentiment Classification using Machine Learning Techniques|ссылка=http://www.cs.cornell.edu/home/llee/papers/sentiment.home.html|язык=en|издание=EMNLP|год=2002|страницы=79–86|ref=Pang, Lee, Vaithyanathan}}
* {{статья|автор=Bo Pang, Lillian Lee|заглавие=A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimum Cuts|ссылка=http://www.cs.cornell.edu/home/llee/papers/cutsent.home.html|язык=en|издание=Proceedings of the Association for Computational Linguistics (ACL)|тип=журнал|год=2004|страницы=271–278|ref=Pang, Lee}}
* {{статья
|автор = Bo Pang, Lillian Lee
|заглавие = Seeing stars: exploiting class relationships for sentiment categorization with respect to rating scales
|ссылка = http://www.cs.cornell.edu/home/llee/papers/pang-lee-stars.pdf
|язык = en
|издание = In Proceedings of the 43rd annual meeting of the Association for Computational Linguistics (ACL)
|тип = журнал
|место = University of Michigan, USA
|год = 2005
|номер = June 25–30
|страницы = 115–124
|ref = Pang, Lee
}}
* {{статья
|автор = Bo Pang, Lillian Lee
|заглавие = Opinion Mining and Sentiment Analysis
|ссылка = http://www.cs.cornell.edu/home/llee/omsa/omsa.pdf
|язык = en
|издание = Foundations and Trends in Information Retrieval
|тип = журнал
|год = 2008
|номер = 2
|страницы = 1-135
|ref =Pang, Lee
}}