Національний корпус польської мови (часто скорочений до NKJP) — лінгвістичний корпус польської мови, започаткований у 2012 році. Розроблено Інститутом комп'ютерних наук Польської академії наук, Інститутом польської мови Польської академії наук, польськими науковими видавництвами PWN та кафедрою обчислювальної та корпусної лінгвістики Лодзинського університету. Проект виконано на замовлення Міністерства науки і вищої освіти .

Національний корпус польської мови
Narodowy Korpus Języka Polskiego.
Посилання nkjp.pl
Тип Наукова література
Мови Польська і англійська
Започатковано 2007-2012
Стан Відкритий

Про проєкт NKJP ред.

Лінгвістичний корпус — це сукупність текстів, у яких можна знайти типове використання окремого слова чи фрази, а також їх значення та граматичну функцію. Без доступу до мовного корпусу неможливо займатися лінгвістичними дослідженнями, писати словники, граматики та підручники з мови, створювати чутливі до польської мови пошукові системи, машини машинного перекладу та програмне забезпечення передових мовних технологій.

Мовні корпуси є важливим інструментом для лінгвістів, але вони також корисні для інженерів-програмістів, дослідників літератури та культури, істориків, бібліотекарів та інших спеціалістів з мистецтва та інформатики. Вже існують національні корпуси, складені англійцями, німцями, чехами та росіянами . Полякам також потрібен великий, добре збалансований мовний корпус — мовне джерело, доступне в Інтернеті.

Автори ред.

Національний корпус польської мови є спільною ініціативою чотирьох установ: Інституту комп'ютерних наук, Польської академії наук (координатор), Інституту польської мови, Польської академії наук, польських наукових видавництв PWN та Департаменту обчислень і корпусу. Він виконаний як науково-дослідний проект Міністерства науки та вищої освіти .

Ці чотири установи розпочали співпрацю для створення довідкового корпусу польської мови, що містить понад півтори сотні мільйонів слів. Корпус доступний для пошуку за допомогою передових інструментів, які аналізують польську флексію та структуру польського речення.

Зміст ред.

Список джерел для корпусів містить класичну літературу, щоденні газети, спеціалізовані періодичні видання та журнали, стенограми розмов, різноманітні короткочасні та інтернет-тексти. Щоб корпус був надійним, він повинен не тільки містити велику кількість слів, а й різноманітність текстів за темою та жанром. Розмови мають представляти мовців як чоловіків, так і жінок у різних вікових групах, які приїжджають з різних регіонів Польщі.[1][2]

Про пошукову систему ред.

Корпусний пошуковий механізм PELCRA для даних NKJP створено в рамках проекту Національний корпус польської мови . Це дозволяє шукати збалансовану версію корпусу зібраних як частина проект. Пошукова система PELCRA проста у використанні і швидко повертає навіть дуже великі набори результатів, які також можна завантажити у вигляді електронних таблиць. Спеціальний синтаксис запиту також дозволяє використовувати морфологічні та орфографічні розширення, шукати в одному запиті лексічні варіанти та гнучкі фразеологічні сполуки.

Пошукова система NKJP PELCRA також пропонує функцію візуалізації реєстру та генерування часових рядів для слів, фраз та ідіом.

Застосування корпусу ред.

Національний корпус польської мови є матеріальною базою для нового Великого словника польської мови, створеного в рамках науково-дослідного проекту в Інституті польської мови Польської академії наук. Частина текстів, зібраних у рамках NKJP, на постійній основі використовуються в проекті Польсько-Російського Корпусу, що входить до складу факультету польських студій Варшавського університету у співпраці з Педагогічним університетом в Уфі та Національним корпусом російської мови. NKJP також використовується в багатьох інших проектах, що здійснюються в Інституті комп'ютерних наук Польської академії наук і в підрозділах, що співпрацюють з IPI PAN, включаючи Вроцлавський технологічний університет (наприклад, у створенні наступних версій Słowosetcia[3]) та Університет науки і техніки AGH (включаючи лінгвістичний семінар для аналізу та розпізнавання мовлення та систему діалогу між людиною і комп'ютером).

2012 рік

На основі даних NKJP підготовлено стаття опубліковано 28 травня 2012 року на новинному порталі TokFM. Вроцлавський університет науки і техніки використовував доступ до програмування NKJP PELCRA для створення та тестування систем розшифровки слів. Для добору слів 2011 року використано програму «Слова дня». Радіопередача в «Trójki Club[4]».

2011 рік ред.

Розмовні дані, зібрані в рамках NKJP, були доступні на платформі META-SHARE[5] за відкритою ліцензією. Університет Редінга використовував пошукову систему NKJP PELCRA для антропологічних досліджень. Університет Утрехта отримав ліцензію на використання підкорпусу розмовної мови NKJP для проведення досліджень з моделювання мовлення.

2009 рік ред.

Барселонський університет використав близько 500 тис. корпусів. слова для мого власного дослідження.

Публікації ред.

Рік Автор Назва роботи
2008 Адам Пшепьорковський Linguistic resources and tools at ICS PAS: Towards interoperability
2009 Рафал Млодзкі та Адам Пшепьорковський The WSD Development EnvironmentA comparison of two morphosyntactic tagsets of Polish.
2010 Катажина Гловинська, Адам Пшепьорковський The Design of Syntactic Annotation Levels in the National Corpus of PolishTowards the Annotation of Named Entities in the National Corpus of Polish
2011 Пйотр Пензік

Анна Анджейчук

Providing corpus feedback for translators with the PELCRA search engine for NKJPDwoje urodzin to brzmi dziwnie.

Norma językowa dotycząca połączeń rzeczowników plurale tantum z liczebnikami a jej realizacja w tekstach

2012 Лукаш Дегурський Towards the lemmatisation of Polish nominal syntactic groups using a shallow grammar.

Посилання ред.

  1. Książki w korpusie NKJP. www.nkjp.pl. Процитовано 20 квітня 2022.
  2. Prasa w korpusie NKJP. www.nkjp.pl. Процитовано 20 квітня 2022.
  3. Słowosieć. plwordnet.pwr.wroc.pl. Архів оригіналу за 12 травня 2015. Процитовано 19 квітня 2022.
  4. Program Trzeci Polskiego Radia. trojka.polskieradio.pl (пол.). Процитовано 19 квітня 2022.
  5. META-SHARE — META Multilingual Europe Technology Alliance. www.meta-net.eu. Процитовано 19 квітня 2022.

https://en.wikipedia.org/wiki/National_Corpus_of_Polish - стаття про корпус на польській мові

[1] стаття про корпус на англійській мові