Національний корпус сучасної валлійської мови

Національний корпус сучасної валлійської мови[1] або CorCenCC (від валл.: Corpws Cenedlaethol Cymraeg Cyfoes) — це мовний ресурс для носіїв валлійської мови, мовознавців та всіх, хто цікавиться цією мовою. CorCenCC — це онлайн-корпус, який міститься у вільному доступі і пропонує різноманітні мовні зразки, зібрані із реального спілкування між різними мовцями. Корпус супроводжується набором інструментів для викладання та навчання валлійської мови Y Tiwtiadur[2].

Логотип CorCenCC Project

CorCenCC містить понад 11 мільйонів слів (приблизно 14,4 мільйона лексем). Свій вклад у створення корпусу здійснили більш ніж півмільйона мовців валлійської мови. Укладення корпусу стало громадським проектом, що зміг запропонувати носіям валлійської можливість створити для цієї мови ресурс, який відображав би, як валлійською користуються сьогодні.

CorCenCC був запущений у вересні 2020 року і є першим корпусом сучасної валлійської мови, який включає всі три її форми: усну, письмову і мову мережевого спілкування (e-language). Проектом керує Дон Найт[3] із Кардіффського університету. У створенні корпусу також брали участь Бангорський, Ланкастерський університети та університет у Суонсі.

Обсяг і структура ред.

CorCenCC містить 11 мільйонів слів природної валлійської мови (версія корпусу, доступна на веб-сайті проекту, відображає лексеми, а не словоформи). Корпус охоплює зразки мовлення в різних контекстах: приватні розмови, спілкування у громадських місцях, бізнес-спілкування, освіта, ЗМІ тощо.

Дослідницька група записувала розмови, а краудсорсинговий додаток дозволив носіям валлійської спільноти записувати та завантажувати зразки мовлення до корпусу. Для опублікованого корпусу CorCenCC було дібрано зразки валлійської мови з усіх регіонів Уельсу, від мовців різного віку та статі, з широким спектром професій та з різноманітним мовним фоном, щоб відобразити мовленнєву різноманітність в сучасному Уельсі.[4]

Інструментарій корпусу ред.

Поточна версія Національного корпусу сучасної валлійської мови пропонує такі інструменти:

  • Набір даних валлійською мовою на 11 мільйонів слів
  • Рамка вибірки CorCenCC
  • Протоколи транскрипції для розмовної валлійської мови
  • Граматичні теги слів валлійської мови, спеціально розроблені для проекту. Вони використовується разом із семантичними тегами для позначення всіх лексичних одиниць у корпусі.
  • CySemTag: валлійський семантичний теггер автоматично застосовує анотацію корпусу до даних валлійською мовою.
  • Застосунок навчання і викладання валлійської мови Y Tiwtiadur[5], який включає 4 інструменти, які використовують інформацію з корпусу:
    • інструмент заповнення проміжків Cloze;
    • профайлер словникового запасу для визначення частоти слова;
    • інструмент для визначення слова;
    • інструмент Word Task Creator.
  • Додаток для краудсорсингу[4] для збору даних, призначений для того, щоб носії валлійської мови записували розмови між собою в різних контекстах і завантажували їх за згодою учасників з етичною відповідністю для включення до корпусу. Корпусні дані з краудсорсингу — це відносно новий напрямок, який доповнює більш традиційні методи збору мовних даних і відповідає духу спільноти, який існує серед носіїв та тих, хто вивчає мови меншин, зокрема валлійську.

Користування корпусом ред.

В налаштуваннях простого пошуку є різні опції; можна шукати слово чи лему, задати частину мови, її граматичну форму та семантичну групу (загальні та абстрактні терміни, емоції, їжа та фермерство тощо). Також на сайті корпусу реалізовано розширений пошук, частотний пошук, пошук за N-грамами, аналіз сполук із заданим словом та аналіз ключових слів. При виборі аналізу ключових слів можна задати параметри для підкорпусів, в яких буде проводитися порівняння, наприклад врахувати форму мовлення (усна, письмова, електронне спілкування) та обрати тематику для підкорпусів відповідно до жанру, контексту, теми, місця, мовця та аудиторії.

Фінансування ред.

Дослідження, на яких базувався проект CorCenCC, фінансувалося Радою з економічних і соціальних досліджень Великої Британії ESRC та Радою з питань мистецтва та гуманітарних досліджень AHRC (номер гранту ES/M011348/1).

Посилання ред.

Джерела ред.

  1. CorCenCC – National Corpus of Contemporary Welsh (амер.). Процитовано 27 квітня 2022.
  2. Y Tiwtiadur – CorCenCC – National Corpus of Contemporary Welsh (англ.). Процитовано 18 вересня 2020.
  3. BA, Dr Dawn Knight; MA; English, PhDReader School of; Communication; Building, John Percival; Drive, Colum; Cardiff; supervision, CF10 3EU Users Available for postgraduate. Dr Dawn Knight. Cardiff University (англ.). Процитовано 27 квітня 2022.
  4. а б Neale, S.; Spasić, I.; Needs, J.; Watkins, G.; Morris, S.; Fitzpatrick, T.; Marshall, L.; Knight, D. (2017), The CorCenCC crowdsourcing app: A bespoke tool for the user-driven creation of the national corpus of contemporary Welsh, Corpus Linguistics Conference 2017, Newcastle University
  5. Davies, J.; Thomas, E-M.; Fitzpatrick, T.; Needs, J.; Anthony, L.; Cobb, T.; Knight, D (2020). Y Tiwtiadur. [Digital Resource].