Sketch Engine (англ. Sketch — ескіз; англ. Engine — двигун) — це програмне забезпечення для керування корпусом та аналізом тексту, розроблене компанією Lexical Computing Limited [Архівовано 9 квітня 2022 у Wayback Machine.] з 2003 року. Його мета — дати людям, які вивчають мовну поведінку (лексикографам, дослідникам з корпусної лінгвістики, перекладачам або тим, хто вивчає мову), шукати великі текстові колекції відповідно до лінгвістичних запитів. Sketch Engine отримав свою назву на честь однієї з ключових функцій, Word Sketch[en]: односторінкові, автоматичні, похідні від корпусу граматичної та розмовної поведінки слова. Наразі він підтримує та надає корпуси понад 90 мовами[1].

Sketch Engine
Тип програмне забезпечення
Мова програмування C++
Вебсайт sketchengine.co.uk

Історія розвитку ред.

Sketch Engine є продуктом компанії Lexical Computing Limited, заснованої в 2003-му році лексикографом і науковцем Адамом Кілгарріффом[2]. Він розпочав співпрацю з Павлом Рихли, вченим-комп'ютерником, який працює в Центрі обробки природних мов при Університеті Масарика[3] і розробником Manatee і Bonito (двох основних частин програмного пакету), і представив концепцію  word sketches . .

З тих пір Sketch Engine є комерційним програмним забезпеченням, однак усі основні функції Manatee і Bonito, які були розроблені до 2003 року (і з тих пір розширені), є вільно доступними за ліцензією GPL у пакеті NoSketch Engine. [Архівовано 7 травня 2016 у Wayback Machine.][голе посилання]

Особливості ред.

  • word sketches[en] .– автоматичний підсумок граматичної та розмовної поведінки слова на одній сторінці
  • Різниця в word sketch — порівнює та протиставляє два слова, аналізуючи їхнє зіставлення
  • Розповсюджуваний  Thesaurus — автоматизований тезаурус, який знаходить слова з подібним значенням або з'являються в тому ж/подібному контексті
  • Пошук узгодженості — знаходить приклади словоформи, леми, фрази, тегу або складної структури
  • Пошук спільної локації — аналіз спільної зустрічальності слів із відображенням найчастіших слів (до пошукового слова), які можна розглядати як кандидатів на збіг
  • Списки слів — створює списки частот, які можна фільтрувати за складними критеріями
  • n-grams — генерує частотні списки багатослівних виразів
  • Термінологія / Вилучення ключових слів (як одномовних, так і двомовних) — автоматичне вилучення ключових слів і термінів із кількох слів із текстів (на основі частоти та лінгвістичних критеріїв)
  • Діахронічний аналіз (Trends) — виявлення слів, частота вживання яких змінюється з часом (показати популярні слова)
  • Побудова корпусу та керування ним — створюйте корпуси з Інтернету або завантажуйте тексти, включаючи тегування частини мови та лематизація, які можна використовувати як програмне забезпечення для аналізу даних
  • Паралельний корпус (двомовний) — пошук прикладів перекладу (корпус EUR-Lex, корпус Europarl, корпус OPUS тощо) або створення паралельного корпусу з власних вирівняних текстів.

Опис ред.

Sketch Engine складається з трьох основних компонентів: базової системи керування базою даних під назвою Manatee, веб-інтерфейсу пошуку під назвою Bonito та веб-інтерфейсу для створення корпусу та керування ним під назвою Corpus Architect.

Примітки ред.

  1. Word databases, language tools and solutions. Lexical Computing (брит.). Архів оригіналу за 9 квітня 2022. Процитовано 2 травня 2022.
  2. Adam Kilgarriff. Wikipedia (англ.). 7 квітня 2022. Процитовано 2 травня 2022.
  3. Masaryk University. Wikipedia (англ.). 13 квітня 2022. Процитовано 2 травня 2022.

Посилання ред.