Американський національний корпус англійської мови

Американський національний корпус (American National Corpus) — це текстовий корпус американської англійської, що містить 22 мільйони слів письмових і усних даних, створених з 1990 року. Наразі ANC включає низку жанрів, такі як електронна пошта, твіти та веб-дані, які не включені в попередні корпуси, такі як Британський національний корпус . Він розмічений та лематизований для частин мови, має синтаксичну розмітку.

ANC доступний у Консорціумі лінгвістичних даних . Підмножина з п’ятнадцяти мільйонів слів цього корпусу, яка називається Open American National Corpus (OANC), є вільно доступною без обмежень щодо використання на веб-сайті ANC.

Корпус та його анотації надаються відповідно до специфікацій Linguistic Annotation Framework. Використовуючи безкоштовно наданий інструмент трансдукці, корпус і анотації, вибрані користувачем, надаються в кількох форматах: формат CoNLL IOB; формат XML, що відповідає стандарту кодування XML Corpus (можна використовувати з пошуковою системою XAIRA Британського національного корпусу); формат, сумісний із UIMA; та формати, придатні для введення в широкий спектр програмного забезпечення для конкордації. Також доступні плагіни для імпорту анотацій до General Architecture for Text Engineering.

ANC відрізняється від інших корпусів англійської мови тим, що має багато анотацій, включаючи анотації різних частин мови, анотації неглибокого аналізу та анотації для кількох типів іменованих об’єктів . Додаткові анотації додаються до всього або частин корпусу, коли вони стають доступними, часто за рахунок внесків інших проектів. На відміну від онлайн-корпусів із можливістю пошуку, які через обмеження авторських прав надають доступ лише до окремих речень, весь ANC доступний для досліджень, що включають, наприклад, розробку статистичних мовних моделей та повнотекстових лінгвістичних анотацій.

Анотації ANC створюються автоматично та не перевіряються. Піднабір із 500 000 слів, який називається підкорпусом з анотаціями вручну (MASC), анотується приблизно для 20 різних видів лінгвістичних анотацій, усі з яких були перевірені вручну або створені вручну. До них належать синтаксичні анотації Penn Treebank, семантичні анотації WordNet, семантичні анотації кадрів FrameNet та інші. Як і OANC, MASC є вільно доступним для будь-якого використання, і його можна завантажити з сайту ANC або з Консорціуму лінгвістичних даних . Він також розповсюджується у формі з тегами частини мови разом із Набором інструментів природної мови .

ANC та його підкорпуси відрізняються від подібних корпусів насамперед діапазоном наданих лінгвістичних анотацій та включенням сучасних жанрів, які не з’являються в таких ресурсах, як Британський національний корпус . Крім того, оскільки початковим цільовим використанням корпусів була розробка статистичних мовних моделей, доступні повні дані та всі анотації, що відрізняється від Корпусу сучасної американської англійської мови (COCA), який доступний лише вибірково через веб-браузер.

Подальше зростання OANC та MASC залежить від внесків даних та анотацій від спільнот комп’ютерної лінгвістики та корпусної лінгвістики.

Дивись також ред.

Посилання ред.

Зовнішні посилання ред.