Семантичний розрив характеризує різницю між двома описами об'єкту за допомогою різних лінгвістичних репрезентацій (наприклад, мов чи символів). Гайн визначає семантичний розрив як «різницю у значенні конструкцій, сформованих всередині різних систем представлення».[1] У інформатиці проблема семантичного розриву постає, коли звичайні людські справи, дії, спостереження чи задачі мають бути перетворені на представлення, що підходить для того чи іншого виду обчислення.[2][3][1]

У більш точному сенсі, семантичний розрив спричинений різницею між розпливчатим, неоднозначним вираженням якого-небудь знання (майже завжди контекстно-залежного) якою-небудь потужною мовою (наприклад, природною мовою людини), і репрезентацією цього знання у обчислювальній, однозначній і повторюваній формі за допомогою формальної мови (наприклад, мови програмування обчислювальної машини). Семантика об'єкта залежить від контексту, у якому він знаходиться чи розглядається. На практиці це означає, що будь-яке формальне представлення об'єктів чи дій реального світу завжди потребує перекладу (трансляції) високорівневих експертних знань (знову-таки, майже завжди контекст-залежних) у елементарні і відтворювані низькорівневі операції комп'ютера. Через те, що природна мова дозволяє формулювати задачі, недоступні для обчислення і строгої формалізації, у загальному випадку не існує універсального методу для подібного перетворення. Більш того, аналіз мов у ієрархії Чомскі показує, що не існує формального (тобто, повністю автоматизованого) методу перекладу з однієї мови на іншу при переході через деякий рівень виразності.

Теоретичне підґрунтя ред.

Згідно з Тезою Черча-Тюрінга (яку ще не доведено, але загальноприйнятою вважається її істинність), машина Тюрінга і всі еквівалентні їй формальні мови, такі як лямбда-числення, відповідно виконують і представляють всі формальні операції так, як це може зробити людина, здійснюючи обчислення. Але вибір підходящих операцій для правильного обчислення сам по собі не є формальним алгоритмом; більш того, він залежить від обчислюваності проблеми, яка розв'язується. Такі задачі, як проблема зупинки, можна сформулювати з довільним рівнем детальності природною мовою людини, але алгоритмічне представлення, у загальному випадку, може ніколи не відпрацювати повністю на машині, або ж не поверне потрібного результату, як доведено теоремою Райса[en].

Формальні мови ред.

Практичні наслідки ред.

Приклади ред.

Аналіз зображень ред.

 
Сематничний розрив при аналізі зображення

Аналіз зображень є типовою областю, для якої потрібен високий рівень абстракції від низькорівневих методів і де семантичний розрив негайно впливає на користувача. Якщо для визначення змісту зображення необхідно визначити значення зображення, єдиною доступною незалежною інформацією є дані низького рівня — пікселі. Текстові анотації завжди залежать від знань, здатності до вираження та конкретної мови того, хто створює анотацію, а отже, є ненадійним джерелом. Для розпізнавання сцен по сирим даним зображення, алгоритми вибору та обробки пікселів повинні бути об'єднані та параметризовані адекватно і, нарешті, пов'язані з природним описом. Навіть простий мовний опис форми або кольору, наприклад круглого або жовтого, вимагає цілком різних методів математичної формалізації, які не є інтуїтивно зрозумілими, не унікальними та незмінними.

Джерела ред.

  1. а б Hein, A.M., Identification and Bridging of Semantic Gaps in the Context of Multi-Domain Engineering, Abstracts of the 2010 Forum on Philosophy, Engineering & Technology. Colorado. [1] [Архівовано 2016-03-20 у Wayback Machine.]
  2. Smeulders AWM, Worring M, Santini S, Gupta A, Jain R. Content-Based Image Retrieval at the End of the Early Years. IEEE Trans Pattern Anal Mach Intell 2000;22(12):1349-80.
  3. Dorai C, Venkatesh S. Bridging the Semantic Gap with Computational Media Aesthetics. IEEE MultiMedia 2003;10(2):15-17.