Кудзусідзі (яп. くずし字) — старовинний рукописний стиль письма японськими ієрогліфами. Наразі такий формат тексту є майже недоступним для прочитання людьми.

Приклад кудзусідзі

ІсторіяРедагувати

У перекладі кудзусідзі означає «символи, що розпадаються». Таке письмо часто зустрічається на японських гравюрах, мечах.[1] Символи кудзусідзі використовували понад 1000 років (з 8 століття до початку 20-го), однак сьогодні його може прочитати менше 0,01 % населення світу. У 19 столітті Японія реформувала свою офіційну писемну мову і з часом кудзусідзі зник із вжитку, внаслідок чого мільйони документів японської культури та історії стали недоступними для більшості людей. Зміст великої кількості старовинних текстів японською мовою, написаних кудзусідзі, давно цікавив дослідників, які намагалися розшифрувати ці рукописи. Щоб розшифрувати ієрогліф, експерти посилаються на спеціалізовані словники для ідентифікації скорописних і напівскорописних знаків. Словники, призначені для розшифровки знаків стилю кудзусідзі, створені відповідно до правил. Для початку необхідно визначити лінію (елемент), з якого починається знак. Потім його знаходять в змісті словника або в його додатку, щоб розглянути всі можливі варіанти «трансформації» знаків складової абетки чи ієрогліфів.

Лише частина текстів кудзусідзі перекладена на сучасні символи кандзі. Вважають, що для того, щоб переписати тексти вручну, потрібно сотні років.[2][3]

РозшифруванняРедагувати

Дослідники потребували комп'ютерні системи оптичного розпізнавання символів для транскрипції текстів кудзусідзі у сучасні символи кандзі. Щоб розв'язати цю проблему влаштували змагання, підготувавши k-MNIST набір даних, який містить 60 000 (28x28 для хіраґани та 68х68 для кандзі) чорно-білих зображень рукописних символів. Набір даних k-MNIST доступний на GitHub і Kaggle, та часто використовувався для хакатонів.[4] Набір даних Kuzushiji включає символи як у кандзі (логографічна система, де кожен символ представляє слово або фразу (з тисячами символів)), так і в хіраґана (складова абетка, де слова будуються із складів (аналогічно алфавіту)) з 35 книг 18 століття.[5]

За допомогою штучного інтелекту можливо перекласти тексти, до цього часу невідомі науковцям, що дає нові можливості дослідити невідомі джерела історичних даних. Станом на 2019 рік, машини навчилися розпізнавати до 95 % текстів.[2] За іншими даними розшифровка текстів написана хіраґаною сягає вище 97 %.[5]

ПриміткиРедагувати

  1. Исаева, Виктория (2017). НАДПИСИ НА ХВОСТОВИКАХ ЯПОНСКИХ МЕЧЕЙ (ГРАФОСТИЛИСТИЧЕСКИЕ И ЛЕКСИКО–ГРАММАТИЧЕСКИЕ ОСОБЕННОСТИ). Санкт – Петербург: ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «САНКТ – ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ» (СПБГУ). 
  2. а б 日本放送協会. AIで“くずし字”の解読に挑む. NHKニュース. Архів оригіналу за 13 листопада 2019. Процитовано 19 листопада 2019. 
  3. Secrets of billions of ancient Japanese texts being uncovered by AI. www.9news.com.au. Архів оригіналу за 19 листопада 2019. Процитовано 19 листопада 2019. 
  4. London, Main campus address: Imperial College; Campus, South Kensington. Engineering language solutions using neural networks | Imperial News | Imperial College London. Imperial News (англ.). Архів оригіналу за 11 липня 2019. Процитовано 19 листопада 2019. 
  5. а б Horev, Rani (14 грудня 2018). Kuzushiji-MNIST - Japanese Literature Alternative Dataset for Deep Learning Tasks. Medium (англ.). Процитовано 19 листопада 2019.