Синхронний корпус LIVAC

мовний корпус

LIVAC Synchronous Corpus — це незвичайний мовний корпус, який динамічно підтримується з 1995 року. На відміну від інших чинних корпусів, LIVAC застосував суворий і регулярний, а також «Windows» підхід до обробки та фільтрації масових медіа-текстів із репрезентативних китайських мовних спільнот, таких як Гонконг, Макао, Тайбей, Сінгапур, Шанхай, Пекін, а також Гуанчжоу і Шеньчжень.[1] Таким чином, зміст у більшості випадків навмисно повторюється, представлений текстовими зразками, взятими з редакційних статей, місцевих та міжнародних новин, а також новин фінансів, спорту та розваг.[2] До 2020 року наразі було відфільтровано 3 мільярди символів текстів новин, з яких 700 мільйонів символів було оброблено та проаналізовано. Завдяки ретельному аналізу на основі обчислювальної лінгвістичної методології LIVAC водночас накопичив велику кількість точних і значущих статистичних даних про китайську мову та їх мовні спільноти в Пан-китайському регіоні, і результати показують значні та важливі варіації.[3][4]

LIVAC
Посилання livac.org
Тип програмне забезпечення
Мови Англійська, традиційна та спрощена китайська, українська
Започатковано липень 1995
Стан активний

Підхід «Windows» є найбільш репрезентативною особливістю LIVAC і дає змогу кількісно проаналізувати Пан-китайські медіатексти відповідно до різних атрибутів, таких як місце розташування, час і предметні домени. Таким чином, стали можливими різні типи порівняльних досліджень і застосувань в інформаційних технологіях, а також розробка часто пов'язаних інноваційних застосувань.[5][6] Крім того, LIVAC дозволив брати до уваги поздовжні зміни, сприяючи ключовому слову в контексті (KWIC) та всебічному вивченню цільових слів та їхніх основних понять, а також мовних структур за останні 20 років, на основі змінних, таких як регіон, тривалість і зміст. Результати розлогого та накопичуваного аналізу даних, що міститься в LIVAC, дозволили створити текстові бази даних власних імен, топонімів, назв організацій, нових слів, а також щотижневі та річні списки медіа-діячів. Пов'язані програми включали створення баз даних дієслів і прикметників, формулювання індексів настроїв і пов'язаний з ними аналіз думок, щоб виміряти та порівняти популярність світових медіа-діячів у китайських ЗМІ (LIVAC Annual Pan-Chinese Celebrity Rosters, пізніше перейменований як Пан-китайські списки медіаособистостей)[7][8][9][10] та створення щомісячних нових лексиконів слів (LIVAC Annual Pan-Chinese New Word Rosters).[11][12][13][14] На цій основі став можливим аналіз появи, поширення та трансформації нових слів, видання словників неологізмів.[15][16]

Нещодавно зосереджено на відносному балансі між двоскладовими словами та висхідними трискладовими словами в китайській мові,[17] а також на порівняльному вивченні легких дієслів у трьох китайських мовних спільнотах.[18]

Обробка корпусних даних ред.

  1. Доступ до медіатекстів, ручне введення тощо.
  2. Уніфікація тексту, включаючи перетворення спрощених ієрогліфів у традиційні китайські ієрогліфи, що зберігаються як версії Big5 та Unicode
  3. Автоматична сегментація слів
  4. Автоматичне вирівнювання паралельних текстів
  5. Перевірка вручну, позначення частини мови
  6. Вилучення слів і додавання до регіональних підкорпусів
  7. Поєднання регіональних підкорпусів для оновлення корпусу LIVAC та головної лексичної бази даних

Маркування для зберігання даних ред.

  1. Використовувані категорії включають загальні терміни та власні назви, такі як: загальні імена, прізвища, напівназви; географічні, організації та комерційні структури тощо; час, прийменники, місце розташування тощо; стек-слова; запозичення; відмінкове слово; числівники тощо.
  2. Побудова баз даних власних імен, топонімів, конкретних термінів тощо.
  3. Створіть списки: «списки нових слів», «знаменитості або медіа-персони», «списки назв місць», складні слова та відповідні слова
  4. Позначення інших частин мови для підбази даних, таких як загальні іменники, числівники, класифікатори числівників, різні типи дієслів, а також прикметники, займенники, прислівники, прийменники, сполучники, частки, що позначають настрій, звукоподражання, вставні слова тощо.

Додатки ред.

  1. Складання Пан-китайських або місцевих словників
  2. Дослідження інформаційних технологій, як-от інтелектуальне введення тексту китайською мовою для мобільних телефонів, автоматичне перетворення мови в текст, аналіз думок
  3. Порівняльні дослідження мовного та культурного розвитку панкитайських регіонів
  4. Дослідження щодо викладання та вивчення мови, а також перетворення мови в текст
  5. Індивідуальний сервіс з лінгвістичних досліджень та лексичного пошуку для міжнародних корпорацій та державних установ

Дивитися також ред.

Джерела ред.

  1. Tsou, Benjamin; Lai, Tom; Chan, Samuel; and Wang, William S.-Y. (Eds). (1998). Quantitative and Computational Studies on the Chinese Language 《漢語計量與計算研究》. Language Information Sciences Research Centre, City University Press.
  2. Tsou, B. K., Kwong, O.Y. (Eds). (2015). Linguistic Corpus and Corpus Linguistics in the Chinese Context (Journal of Chinese Linguistics Monograph Series Number 25), Hong Kong: Chinese University Press.
  3. Tsou, Benjamin. (2004). "Chinese Language Processing at the Dawn of the 21st Century", in C R Huang and W Lenders (eds) Language and Linguistics Monograph Series B: Frontiers in Linguistics I, pp.189–207. Institute of Linguistics, Academia Sinica.
  4. Tsou, B. K. (2017). Loanwords in Mandarin Through Other Chinese Dialects. In R. Sybesma, W. Behr, Y. Gu, Z. Handel, C.-T. Huang & J. Myers (Eds.), The Encyclopaedia of Chinese Language and Linguistics (Vol. 2, pp. 641-647). Leiden; Boston: BRILL.
  5. Tsou, Benjamin, and Kwong, Olivia. (2015). LIVAC as a Monitoring Corpus for Tracking Trends beyond Linguistics. In Tsou, Benjamin, and Kwong, Olivia., (eds.), Linguistic Corpus and Corpus Linguistics in the Chinese Context (Journal of Chinese Linguistics Monograph Series No.25). Hong Kong: The Chinese University Press, pp. 447-471.
  6. Tsou, Benjamin. (2016). Skipantism Revisited: Along with Neologisms and Terminological Truncation. In Chin, Chi-on Andy and Kwok, Bit-chee and Tsou, Benjamin K., (eds.), Commemorative Essays for Professor Yuen-Ren Chao: Father of Modern Chinese Linguistics. Taiwan: Crane Publishing. pp. 343-357.
  7. CityU releases 2015 LIVAC Pan-Chinese Media Personality Roster, City University of Hong Kong, Hong Kong, 28 December 2015.
  8. CityU releases 2016 LIVAC Pan-Chinese Media Personality Roster, City University of Hong Kong, Hong Kong, 02 January 2017.
  9. CityU releases 2019 LIVAC Pan-Chinese Media Personality Roster, City University of Hong Kong, Hong Kong, 07 January 2019.
  10. "Pan-Chinese top newsmakers of 2020". City University of Hong Kong. Retrieved 2021-01-18.
  11. CityU releases 2014 Pan-Chinese New Word Rosters, City University of Hong Kong, Hong Kong, 12 February 2015.
  12. CityU releases 2015 LIVAC Pan-Chinese New Word Rosters, City University of Hong Kong, Hong Kong, 04 February 2016.
  13. CityU releases 2019 LIVAC Pan-Chinese New Word Rosters, City University of Hong Kong, Hong Kong, 09 January 2019.
  14. "New Chinese Buzz words for 2020 released by LIVAC Pan-Chinese linguistic database". City University of Hong Kong. Retrieved 2021-01-18.
  15. 鄒嘉彥、游汝杰(編)(2007),《21世紀華語新詞語詞典》(簡體字版),上海,復旦大學出版社。.
  16. 鄒嘉彥、游汝杰(編)(2010),《全球華語新詞語詞典》,北京,商務印書館。.
  17. 鄒嘉彥(2019),"泛華語地區多音節詞的近20年發展:從LIVAC大數據庫探討 (Developments if polysyllabic words in Pan-Chinese in the recent decades: Investigation based on LIVAC Big Database)",《漢語歷史詞彙語法國際學術研討會(International Conference of Historical Investigations into Chinese words and Grammar)》,北京大學。.
  18. Tsou, Benjamin K., and Ka-Fai Yip. To appear. A corpus-based comparative study of light verbs in three Chinese speech communities. The 34th Pacific Asia Conference on Language, Information and Computation.

Зовнішні посилання ред.

Офіційний вебсайт