Паралельний текст

Парале́льний текст (бітекст, білінгвальний текст) — це текст однією мовою разом з його перекладом на іншу мову. Зіставлення паралельних текстів — це ідентифікація відповідних один одному речень в обох половинах паралельного тексту. Великі збірки паралельних текстів називаються паралельним корпусом (англ. parallel corpora). Зіставлення паралельного корпусу на рівні речень є необхідною передумовою для різних аспектів лінгвістичних досліджень. У процесі перекладу речення можуть розділятися, зливатися, видалятися, вставлятися або змінювати свою послідовність. У зв'язку з цим зіставлення часто стає складним завданням.

Бітекст

У сфері наукових досліджень проблем перекладу бітекст — це суміщений документ, що складається з версій відповідного тексту оригінальною мовою і цільовою мовою. Бітексти створюються за допомогою спеціальних комп'ютерних програм, які називаються «інструментами зіставлення» (alignment tool) або «інструментами для бітексту» (bitext tool). Такі програми дають змогу автоматично зіставляти текст вихідною мовою та його переклад. Вони, як правило, узгоджують два тексти (оригінал і переклад) по кожному реченню. Збірка бітекстів зветься «бітекстовою базою даних» або «двомовним корпусом» і може використовуватися як довідник для пошуку потрібних словосполучень.

Історія

Ідея бітексту належить Брайану Херісу (Brian Harris), котрий першим опублікував дослідження з цієї концепції у 1988 році. Пізніше її розвинула група вчених при Монреальському університеті під назвою RALI (Recherche appliquée en linguistique informatique або Applied Research in Computational Linguistics — «Прикладні дослідження в обчислювальній лінгвістиці»). Ця група складалася з програмістів і лінгвістів, що вивчали природне опрацювання тексту. Відомими промоутерами концепції бітексту вважаються П'єр Ізабель (Pierre Isabelle) та Клод Бедар (Claude Bédard).

Бітексти і пам'ять перекладів

Ідея бітексту має багато спільного з концепцією пам'яті перекладів. Головна відмінність між ними полягає в тому, що пам'ять перекладів являє собою базу даних, у якій текстові сегменти (відповідні один одному речення) розташовані в довільному порядку і не пов'язані з оригінальним текстом, тобто оригінальна послідовність речень втрачається. Натомість бітекст зберігає первісну послідовність речень.

Стандартним форматом для обміну базами даних пам'яті перекладів між різними програмами автоматизованого перекладу є формат TMX (XML-словник, що його розробила асоціація LISA (Localization Industry Standards Association — Асоціація для вироблення стандартів галузі локалізації). Формат TMX дає змогу зберігати оригінальний порядок речень. Бітексти створюються як довідковий інструмент для консультацій спеціалістів-перекладачів, а не задля автоматизованих програм. Тому невеликі помилки вирівнювання або неточності, що можуть призвести до збоїв у пам'яті перекладів, у бітекстах не мають значення.

Паралельні корпуси в Інтернеті

Паралельний корпус The JRC-Acquis Multilingual Parallel Corpus законодавства Європейського Союзу: Acquis Communautaire, що містить 231 мовну пару^[1].
COMPARA — Паралельний корпус Portuguese/English
Nunavut Hansard — Паралельний корпус English/Inuktitut

Див. також

Джерела та посилання

↑ Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga, 2006, The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006.

Бук С. Архітектура польсько-українського та українсько-польського паралельного корпусу автоперекладів Івана Франка // Slavia Orientalis. 2012. T. LXI, Nr 2. С. 213-230.

Документація

Parallel text processing bibliography by J. Veronis and M.-D. Mahimon

[1] Ralf Steinberger Ralf, Bruno Pouliquen, Anna Widiger, Camelia Ignat, Tomaž Erjavec, Dan Tufiş, Dániel Varga, 2006, The JRC-Acquis: A multilingual aligned parallel corpus with 20+ languages, Proceedings of the 5th International Conference on Language Resources and Evaluation (LREC'2006). Genoa, Italy, 24-26 May 2006.

[1]