Google Ngram Viewer або Google Books Ngram Viewer — це онлайн-пошукова система, яка складає графіки частот будь-якого набору пошукових рядків, використовуючи річну кількість n -грамів, знайдених у друкованих джерелах, опублікованих між 1500 і 2019 роками [1] у текстових корпусах Google англійською, китайською (спрощеною), французькою, німецькою, івритом, італійською, російською або іспанською мовами. Ще існують деякі спеціалізовані англійські корпуси американської англійської, британської англійської та англійської художньої літератури. [2]

Приклад запиту Ngram

Програма може шукати слово чи фразу, включаючи орфографічні помилки чи тарабарщину. N -грами зіставляються з текстом у межах вибраного корпуса, вибірково використовуючи правопис із урахуванням регістру (який порівнює точне використання великих букв) і, якщо вони знайдені в 40 або більше книгах - відображаються як графік. Google Ngram Viewer підтримує пошук за частинами мови та символами підстановки . [2] Він регулярно використовується в дослідженнях. [3] [4]

Історія ред.

Програма була розроблена Джоном Орвантом і Віллом Брокманом та випущена в середині грудня 2010 року. Джерелом натхнення для неї послугував прототип під назвою Bookworm, створений Жаном-Батистом Мішелем та Ерезом Ейденом з Гарвардської Культурної Обсерваторії, Юанем Шенем з MIT і Стівеном Пінкером . [5]

Ngram Viewer спочатку базувався на Google Books Ngram Corpus 2009 року видання. Станом на липень 2020, програма підтримувала корпуси 2009, 2012 і 2019 років.

Експлуатація та обмеження ред.

Комами розділяються введені користувачем пошукові терміни, вказуючи на кожне окреме слово або фразу, які треба знайти. Ngram Viewer повертає побудовану лінійну діаграму.

Як пристосування для більшої кількості книг, виданих протягом кількох років, дані нормалізуються як відносний рівень за кількістю книг опублікованих у кожному році.

Через обмеження розміру бази даних Ngram, лише збіги, знайдені в мінімум 40 книжках, індексуються в ній.

Обмеження ред.

Набір даних піддавався критиці через його покладання на неточне OCR (Оптичне розпізнавання символів), надлишок наукової літератури та включення великої кількості неправильно датованих і категоризованих текстів. [6] Через ці помилки, а також через неконтрольованість на предмет упередженості [7] (наприклад, збільшення кількості наукової літератури, що спричиняє зниження популярності появи інших термінів), використовувати цей корпус для вивчення мови або перевірки теорій є ризикованим. [8] Оскільки датасет не містить метаданих, він може не відображати загальні лінгвістичні чи культурні зміни [9] і може лише натякати на такий ефект.

Було запропоновано інструкції, які стосуються багатьох проблем, розглянутих вище, для проведення досліджень із використанням даних із Google Ngram. [10]

Проблеми OCR ред.

Оптичне розпізнавання символів, або OCR, не завжди є надійним, і деякі символи можуть бути проскановані неправильно. Зокрема, системні помилки як плутання s і f у текстах до 19-го століття (через використання довгого s, що був схожий на вигляд до f ), можуть спричинити системне зміщення. Хоча Google Ngram Viewer стверджує, що результати є надійними, починаючи з 1800 року, погане оптичне розпізнавання символів і нестача даних означають, що частоти наведені для таких мов як китайська, можуть бути точними лише починаючи з 1970 року, а попередні частини корпусу взагалі не показують жодних результатів для всіх загальних термінів та даних за кілька років, що містять більше ніж 50% шуму. [11] [12]

Дивіться також ред.

Список літератури ред.

  1. @searchliaison (13 липня 2020). The Google Books Ngram Viewer has now been updated with fresh data through 2019 (Твіт) (англ.). Процитовано 11 серпня 2020 — через Твіттер.
  2. а б Google Books Ngram Viewer info page.
  3. Greenfield, Patricia M. (September 2013). The Changing Psychology of Culture From 1800 Through 2000. Psychological Science (англ.). 24 (9): 1722—1731. doi:10.1177/0956797613479387. ISSN 0956-7976. PMID 23925305.
  4. Younes, Nadja; Reips, Ulf-Dietrich (October 2018). The changing psychology of culture in German-speaking countries: A Google Ngram study: THE CHANGING PSYCHOLOGY OF CULTURE. International Journal of Psychology (англ.). 53: 53—62. doi:10.1002/ijop.12428. PMID 28474338.
  5. The RSA (4 лютого 2010). Steven Pinker – The Stuff of Thought: Language as a window into human nature.
  6. Nunberg, Geoff (16 грудня 2010). Humanities research with the Google Books corpus. Архів оригіналу за 10 March 2016.
  7. Pechenick, Eitan Adam; Danforth, Christopher M.; Dodds, Peter Sheridan; Barrat, Alain (7 жовтня 2015). Characterizing the Google Books Corpus: Strong Limits to Inferences of Socio-Cultural and Linguistic Evolution. PLOS ONE. 10 (10): e0137041. arXiv:1501.00960. Bibcode:2015PLoSO..1037041P. doi:10.1371/journal.pone.0137041. PMC 4596490. PMID 26445406.
  8. Zhang, Sarah. The Pitfalls of Using Google Ngram to Study Language. WIRED (амер.). Процитовано 24 травня 2017.
  9. Koplenig, Alexander (2 вересня 2015). The impact of lacking metadata for the measurement of cultural and linguistic change using the Google Ngram data sets—Reconstructing the composition of the German corpus in times of WWII. Digital Scholarship in the Humanities (опубліковано опубліковано 2017-04-01). 32 (1): 169—188. doi:10.1093/llc/fqv037. ISSN 2055-7671.
  10. Younes, Nadja; Reips, Ulf-Dietrich (22 березня 2019). Guideline for improving the reliability of Google Ngram studies: Evidence from religious terms. PLOS ONE (англ.). 14 (3): e0213554. Bibcode:2019PLoSO..1413554Y. doi:10.1371/journal.pone.0213554. ISSN 1932-6203. PMC 6430395. PMID 30901329.
  11. Google n-grams and pre-modern Chinese. digitalsinology.org.
  12. When n-grams go bad. digitalsinology.org.

Помилка цитування: Тег <ref> з назвою "Culturomics", визначений у <references>, не використовується в попередньому тексті.
Помилка цитування: Тег <ref> з назвою "Huf", визначений у <references>, не використовується в попередньому тексті.
Помилка цитування: Тег <ref> з назвою "Goog", визначений у <references>, не використовується в попередньому тексті.
Помилка цитування: Тег <ref> з назвою "Cnet", визначений у <references>, не використовується в попередньому тексті.
Помилка цитування: Тег <ref> з назвою "GInf", визначений у <references>, не використовується в попередньому тексті.

Помилка цитування: Тег <ref> з назвою "BufLib", визначений у <references>, не використовується в попередньому тексті.

Бібліографія ред.

Зовнішні посилання ред.