Дистрибутивна семантика

Дистрибутивна семантика[1] — це галузь досліджень, що розробляє та вивчає теорії та методи кількісної оцінки та категоризації семантичних подібностей між мовними елементами на базі їхніх дистрибутивних властивостей у великих вибірках мовних даних. Базова ідея дистрибутивної семантики може бути підсумована в так званій дистрибутивній гіпотезі: лінгвістичні елементи з подібними дистрибуціями мають подібні значення.

Як слова пов'язуються в певній мові демонструється в «семантичному просторі», який математично відповідає векторному простору.

Дистрибутивна гіпотеза

ред.

Дистрибутивна гіпотеза в лінгвістиці походить від семантичної теорії вживання мови, наприклад слова, які вживаються та трапляються в однакових контекстах, як правило, мають подібні значення.[2]

Ключова ідея, що «слово характеризується компанією, яку воно підтримує», була популяризована Фертом у 1950-х роках.[3]

Дистрибутивна гіпотеза є базою статистичної семантики . Хоча вона й виникла в лінгвістиці[4], зараз вона отримує увагу в когнітивній науці, особливо щодо контексту вживання слів.[5]

За останні роки дистрибутивна гіпотеза стала базою для теорії узагальнення на основі подібності у вивченні мови: ідея, що діти можуть зрозуміти як використовувати слова, які вони рідко зустрічали раніше, узагальнюючи їх використання на основі дистрибуції подібних слів.[6][7]

Дистрибутивна гіпотеза припускає, що чим більш семантично схожими є два слова, тим більш дистрибутивно схожими вони будуть, і, отже, тим більше вони будуть мати тенденцію зустрічатися в подібних мовних контекстах.

Незалежно від того, чи справедливе це припущення, воно має значні наслідки як для проблеми розрідженості даних в обчислювальному моделюванні, так і для питання про те, як діти здатні вивчати мову так швидко, враховуючи відносно бідні вхідні дані (це також відоме як проблема бідності стимулу).

Дистрибутивне семантичне моделювання у векторних просторах

ред.

Дистрибутивна семантика сприяє застосуванню лінійної алгебри як обчислювального інструменту та фреймворку представлення. Базовий підхід полягає у зборі дистрибутивної інформації у великорозмірних векторах та визначенні дистрибутивної/семантичної схожості в термінах векторної схожості.[8] Залежно від того, який тип інформації про дистрибуцію використовується для збирання векторів, можна виокремлювати різні види схожостей: тематичні схожості можна витягнути, заповнивши вектори інформацією про те, в яких областях тексту зустрічаються лінгвістичні елементи; парадигматичні схожості можна витягнути, заповнивши вектори інформацією про те, з якими іншими мовними елементами елементи зустрічаються. Зверніть увагу, що останній тип векторів також можна використовувати для вилучення синтагматичних схожості, дивлячись на окремі векторні компоненти.

Базова ідея кореляції між дистрибутивною та семантичною схожістю може бути реалізована багатьма різними способами. Є великий асортимент обчислювальних моделей, які реалізують дистрибутивну семантику, включаючи латентний семантичний аналіз (LSA),[9][10] аналог мови гіперпростору (HAL), моделі на основі синтаксису або залежностей,[11] випадкове індексування, семантичне згортання[12] та різні варіанти тематичної моделі .[13]

Дистрибутивні семантичні моделі відрізняються, перш за все, такими параметрами:

Дистрибутивні семантичні моделі, що застосовують лінгвістичні елементи як контекст, ще називають простором слів або моделями векторного простору.[15][16]

Поза межами лексичної семантики

ред.

Під час того як дистрибутивна семантика зазвичай використовується для лексичних одиниць — слів та багатослівних термінів — із значним успіхом, не в останню чергу завдяки її використанню як вхідних даних для нейронно інспірованих моделей глибокого навчання, лексична семантика (значення слів), тільки щоб нести частину семантики цілого висловлювання. Значення речення, наприклад «Тигри люблять кроликів», можна зрозуміти тільки частково, вивчивши значення трьох лексичних одиниць, які воно містить. Дистрибутивну семантику можна просто розширити, щоб охопити більший лінгвістичний елемент, такий як конструкції, з елементами без екземплярів або без них, але деякі базові припущення моделі потрібно дещо скоригувати. Граматика побудови та її формулювання лексико-синтаксичного континууму пропонують один підхід для включення більш складних конструкцій у семантичну модель розподілу, а деякі експерименти були реалізовані з використанням підходу випадкового індексування.[17]

Композиційні семантичні моделі розподілу розширюють семантичні моделі дистрибуції завдяки явним семантичним функціям, що застосовують синтаксично започатковані правила щоб об'єднати семантики лексичних одиниць, які беруть участь, у композиційну модель для характеристики семантики повних фраз чи речень. Цю роботу спершу запропонували Стівен Кларк, Боб Коеке та Мехрунш Садрзаде з Оксфордського університету, в їхній статті 2008 року «Композиційна модель розподілу значення».[18] Було досліджено різні підходи до композиції, включаючи нейронні моделі, і вони обговорюються на відомих семінарах, таких як SemEval .[19]

Додатки

ред.

Моделі дистрибутивної семантики успішно застосовуються для наступних завдань:

Програмне забезпечення

ред.

Див. також

ред.

Люди

ред.

Примітки

ред.
  1. Lenci, Alessandro; Sahlgren, Magnus (2023). Distributional Semantics. Cambridge University Press. ISBN 9780511783692.
  2. Harris, 1954
  3. Firth, 1957
  4. Sahlgren, 2008
  5. McDonald та Ramscar, 2001
  6. Gleitman, 2002
  7. Yarlett, 2008
  8. Rieger, 1991
  9. Deerwester та ін., 1990
  10. Landauer, Thomas K.; Dumais, Susan T. (1997). A solution to Plato's problem: The latent semantic analysis theory of acquisition, induction, and representation of knowledge. Psychological Review. 104 (2): 211—240. doi:10.1037/0033-295x.104.2.211.
  11. Padó та Lapata, 2007
  12. De Sousa Webber, Francisco. Semantic Folding Theory And its Application in Semantic Fingerprinting. {{cite arXiv}}: |arxiv= є обов'язковим параметром (довідка)
  13. Jordan, Michael I.; Ng, Andrew Y.; Blei, David M. (2003). Latent Dirichlet Allocation. Journal of Machine Learning Research. 3 (Jan): 993—1022.
  14. Church, Kenneth Ward; Hanks, Patrick (1989). Word association norms, mutual information, and lexicography. Proceedings of the 27th Annual Meeting on Association for Computational Linguistics. Morristown, NJ, USA: Association for Computational Linguistics: 76—83. doi:10.3115/981623.981633.
  15. Schütze, 1993
  16. Sahlgren, 2006
  17. Karlgren, Jussi; Kanerva, Pentti (July 2019). High-dimensional distributed semantic spaces for utterances. Natural Language Engineering. 25 (4): 503—517. arXiv:2104.00424. doi:10.1017/S1351324919000226.
  18. Clark, Stephen; Coecke, Bob; Sadrzadeh, Mehrnoosh (2008). A compositional distributional model of meaning (PDF). Proceedings of the Second Quantum Interaction Symposium: 133—140.
  19. SemEval-2014, Task 1.

Джерела

ред.

Посилання

ред.