Text Encoding Initiative (TEI) — це міжнародна наукова група дослідників писемної мови[en], орієнтована на співтовариство практиків в академічній сфері цифрових гуманітарних дисциплін[en], яка працює з 1980 року. Спільнота веде список розсилки, наради та серії конференцій, а також підтримує однойменний технічний стандарт, журнал, вікі, сховище GitHub. У 2001 році ТЕІ стає консорціумом, об'єднуючи сили дослідників у галузі комп'ютерної обробки природних мов.

Text Encoding Initiative
Text Encoding InitiativeTEI Logo.svg
Вебсайт tei-c.org

Значення стандартуРедагувати

Digital humanities як самостійні напрями досліджень, що виникли на межі гуманітарних наук і сучасних ІТ), перетворили текст з рукописного раритету в об'єкт електронної публікації.

Оскільки бібліотеки дедалі більше оцифровують свої колекції (Google книги, Проєкт «Гутенберга», проєкт Ґалліка від Національної бібліотеки Франції, проєкт Європіана від Європейської комісії, проєкт Open Library), зростає кількість відсканованих рукописів, які сучасним методам розпізнавання тексту складно розшифровувати.

Документи цієї категорії варіюються від середньовічних рукописів до ранніх друкованих творів, більшість із них не мають електронних транскрипцій, бо поточні методи OCR не працюють, їх вміст залишається непрозорим для пошуку.

Користуючись існуючими методами розпізнавання символів нових сценаріїв дослідник іноді повинен вручну сегментувати та позначати екземпляри кожного гліфа. Інші методи передбачають розмітку цілих рядків тексту замість окремих символів.

Огляд методів розпізнавання текстуРедагувати

Основний спосіб аналізу об'єктів тексту теоретиками обробки тексту та розробниками стандартів початку 1980-х років (спільнота SGML, в їхньому розумінні документи могли бути представлені за правилами розмітки єдиної логічної ієрархічної «фізичної» структури), принципово відрізняється від способу аналізу об'єктів літературно-лінгвістичним кодувальним співтовариством кінця 1980-х (спільнота TEI, виявила багато ієрархічних правдоподібно «логічних» структур)[1].

Уперше основні принципи системи кодування текстів ТЕІ опубліковано у 1994 році, після шести літ розробок з кодування та розпізнавання рукописних текстів вченими Оксфордського університету Лу Бернардом (Lou Burnard) та С. Шперберг­ Мак­Квіном (C. Sperberg­-McQueen)[2]

В 2002 виник стандарт LMNL[3], що дозволяє розмічати та обробляти текст, не встановлюючи ієрархії взагалі. Синтаксис цього методу кодування під назвою HORSE дозволяє повністю представити будь-який документ LMNL у XML. Згодом назва методу була змінена на OSIS (XML-схема CLIX, дуже схожа на схему ініціативи кодування тексту TEI)[4].

Спочатку TEI базувалася на електронному корпусі текстів класиків англійської літератури (Oxford Text Archive). Зараз до складу міжнародної наукової групи, яка адаптує систему TEI для кодування документів національних літературних корпусів, увійшли понад 100 вчених різних спеціальностей з різних країн світу, проєкти національного рівня (British National Corpus, New Zealand Electronic Text Centre), та менш відомі University of Michigan Humanities Text Initiative (HTI), University of Virginia Electronic Text Center, тощо.[5]

Тематика кодування текстових документів у світі постійно і послідовно розвивається з 1980-х років. В даний час в світі працює кілька спільнот, які розробляють проблемно-орієнтовані схеми кодуванні текстових документів, наприклад

Вони використовують формат TEI, пропонуючи власні розширення. До теперішнього часу їх розробки носять методичний характер: розробляється багатоцільова схема кодування рукописів, але не обговорюється автоматизація процесу кодування. Популярні проєкти по розмітці рукописних джерел орієнтовані на підтримку колективної розмітки вручну, наприклад, FromThePage[7], T-PEN (Transcription for Paleographical and Editorial Notation)[8].

Технічні деталіРедагувати

Як правило, в колекціях електронних бібліотек документи зберігаються у форматі растрових графічних файлів. Транскрипція первинних текстів у машиночитану форму складається з низки актів перекладу з однієї семіотичної системи (системи первинного джерела) на іншу семіотичну систему (систему комп'ютера). Як і всі акти перекладу, цей акт теж неповний та інтерпретаційний.

Адже первинний текст існує тільки в одній формі. Біблій багато, а Codex Siniaticus лише один.

Розпізнавання тексту включає етапи передобробки (бінарізаціі зображень), сегментації (виділення текстових областей, рядків, слів, символів), аналізу бінарних зображень символів або слів (встановлення значень ознак, порівняння з еталонами) і вибору відповідних словоформ зі словника відповідно до певної моделі мови.

Розпізнавання рукописних історичних документів в останні роки стало одним з найактуальніших наукових напрямків, активною розробкою методів усунення дефектів і покращенням якості цифрових зображень рукописів[9], а також сегментації рядків[10], оскільки сегментація символів в рукописних текстах часто виявляється складною, пропонуються спеціальні алгоритми розпізнавання незрозумілих слів[11] і цілих рядків, засновані на прихованих марковських моделях[12] і випадкових полях[13], велика увага приділяється розпізнаванню давньогрецьких текстів[14] і арабських рукописів[15].

Приклади практики транскрипції, видобутку даних та редагування тексту, на основі таких програми, як T-PEN[16], бюро транскрипцій Transcribe Bentham, TEI-тексти[17], зробили серйозний внесок в оцінювання різноманітних форматів книг для проведення досліджень. Їх цінність не обов'язково полягає в тому, що програми полегшують текстові експерименти, а в тому, що створюється виразно інша парадигма[18].

Див. такожРедагувати

ПриміткиРедагувати

  1. Refining Our Notion of What Text Really Is.. cds.library.brown.edu. Процитовано 24 березня 2021. 
  2. Формализация рукописного текста. textolog-rgali.ru. Процитовано 24 березня 2021. 
  3. Balisage: Hierarchies within range space. www.balisage.net (англ.). Процитовано 24 березня 2021. 
  4. http://dspace.nbuv.gov.ua/bitstream/handle/123456789/1863/57%2520-%2520Demska-Kulchytska.pdf
  5. Projects Using the TEI – TEI: Text Encoding Initiative. tei-c.org. Процитовано 24 березня 2021. 
  6. SIG:MSS - TEIWiki. wiki.tei-c.org. Процитовано 24 березня 2021. 
  7. FromThePage - TEIWiki. wiki.tei-c.org. Процитовано 24 березня 2021. 
  8. T-Pen - The Digital Classicist Wiki. wiki.digitalclassicist.org. Процитовано 24 березня 2021. 
  9. Moghaddam R.F., Cheriet M. Low quality document image modelling and enhancement // Int. J. on Document Analysis and Recognition. — 2009. — V. 11, No 4. — P. 183—201
  10. Malleron V. et al. Text lines and snippets extraction for 19th century handwriting documents layout analysis // Int. Conf. on Document Analysis and Recognition. — Barcelone, 2009. — P. 1001—1005
  11. Adamek T., O'Connor N.E., Smeaton A.F. Word matching using single closed contours for indexing handwritten historical documents //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 153—165.
  12. Plötz T., Fink G.A. Markov models for offline handwriting recognition: a survey //Int. J. on Document Analysis and Recognition. — 2009. — V. 12, No 4. — P. 269—298.
  13. Feng S., Manmatha R., Mccallum A. Exploring the use of conditional random field models and HMMs for historical handwritten document recognition// 2nd Int. Conf. on Document Image Analysis for Libraries (DIAL), 2006. — P. 8-37.
  14. Ntzios K. et al. An old Greek handwritten OCR system based on an efficient segmentation-free approach //Int. J. on Document Analysis and Recognition. — 2007. — V. 9, No 2 — 4. — P. 179—192.
  15. Lorigo L.M., Govindaraju V. Offline Arabic handwriting recognition: a survey // IEEE Transactions on Pattern Analysis and Machine Intelligence. — 2006. — V. 28, No 5. — P. 712—724
  16. http://t-pen.org/TPEN/
  17. http://www.tei-c.org/About/mission.xml
  18. Original Transcription Guidelines - Canterbury Tales Project 2 - Wiki. wiki.usask.ca. Процитовано 24 березня 2021. 
  19. KislakCenter/VisColl. KislakCenter. 21 березня 2021. Процитовано 24 березня 2021. 
  20. Mapping the Republic of Letters. The National Endowment for the Humanities (англ.). Процитовано 24 березня 2021.