Корпус сучасної американської англійської мови

Корпус сучасної американської англійської мови (COCA) — це корпус, який містить близько одного мільярда слів ^[1] сучасної американської англійської мови. Його створив Марк Девіс, професор корпусної лінгвістики Університету Брігама Янга^[2]. ^[3]

COCA має ряд індивідуальних особливостей: величезний розмір корпусу, актуальні для сьогодення тексти (до 2019 року), великий асортимент жанрів текстів та зручний швидкий пошук, який надає можливість фільтрувати по жанрах та часі, а також порівнювати. Ще він відрізняється тим, що видає одразу 60 000 слів у корпусі і велику кількість інформації для кожного слова, в тому числі частоту, визначення, синоніми, записи в мережі WordNet, пов'язані теми, конкорданси, асоціації, веб-сайти, які мають слово із запиту як ключове та рядки з KWIC чи конкордансу.

Усі ці риси сприяють Корпусу сучасної американської англійської мови бути ідеальним для науковців, вчителів, викладачів та учнів.

Зміст ред.

Корпус сучасної американської англійської мови (COCA) станом на квітень 2022 року складається з 1 001 610 938 слів. Він постійно поповнюється: у 2009 році там містилося понад 385 мільйонів слів; у 2010 році - близько 400 мільйонів слів; до березня 2019 року корпус зріс до 560 мільйонів слів; а до грудня 2019 року ця кількість досягла 1 мільярда слів.

Станом на квітень 2022 року Корпус сучасної американської англійської складається з 485 202 текстів. Згідно з веб-сайтом, поточний корпус (квітень 2022 року) складається з текстів, які включають 25+ мільйонів слів для кожного року (1990-2019).

Для кожного року, що міститься в корпусі (1990-2019), корпус рівномірно поділений на вісім жанрів: розмовні, художні, академічні тексти, популярні журнали, газети та (з оновленням у березні 2020): телебачення і субтитри до фільмів, блоги та інші веб-сторінки. Спочатку реєстрів було 6, та станом на квітень 2022 COCA також містить 125 496 215 слів з блогів і 129 899 426 слів із веб-сайтів, що робить його корпусом, який справді складається з сучасної американської англійської мови (див. сторінку «Тексти та реєстри» на сайті COCA).

Тексти беруться з різноманітних ресурсів:

Розмовні: 127 396 916 слів. Стенограми розмов без сценарію з більш ніж 150 різних теле- та радіопрограм.
Художня література: 119 505 292 слова. Оповідання та п’єси, перші розділи книг 1990 – дотепер і сценарії фільмів.
Популярні журнали: 127 352 014 слів. Близько 100 різних журналів із таких сфер як новини, здоров’я, будинок і садівництво, жіночі, фінансові, релігійні, спортивні тощо.
Газети: 122 959 393 слова. Десять газет США, з текстами із різних розділів газет таких як місцеві новини, думки, спорт та фінанси тощо.
Академічні журнали: 120 988 348 слів. Майже 100 різних рецензованих журналів, які були відібрані щоб охопити весь діапазон системи класифікації Бібліотеки Конгресу.
ТБ/субтитри фільмів: 128 012 334 слова. Субтитри були взяті з колекції OpenSubtitles [Архівовано 6 травня 2022 у Wayback Machine.].

Блоги: 125 496 215 слів. Ці тексти репрезентують підмножину текстів із США в корпусі GloWbE [Архівовано 2 квітня 2022 у Wayback Machine.].
Веб-сторінки: 129 899 426 слів. Підмножина "Загальні" тексти з США в корпусі GloWbE [Архівовано 2 квітня 2022 у Wayback Machine.]. Деякі з них є блогами, так як на той час неможливо було шукати "НЕ блоги" в Google.

Доступність ред.

Корпус сучасної американської англійської мови є безкоштовний для пошуку за допомогою свого веб-інтерфейсу, користувачам потрібно лише зареєструватися і це дозволить здійснювати обмежену кількість запитів у день.

Запити ред.

Інтерфейс такий самий, як інтерфейс BYU-BNC для Британського національного корпусу (який містить 100 мільйонів слів), корпусу журналу TIME (100 мільйонів слів) і *Historical* American English (COHA) (400 мільйонів слів), станом на 1810-2000-ті роки.

Слова за частотою вживання (зверху вниз: частовживані, середньовживані, рідковживані).

Запити можна робити за словом, фразою, альтернативами, підрядком, частиною мови, лемою, синонімами та налаштованими списками.
Корпус позначений тегами CLAWS, тією ж частиною мови, що використовувалася для BNC і корпусу TIME.
Діаграми (які містять загальні відомості для всіх відповідних форм у кожному жанрі (піджанрі) або році (доступні від 1990 - дотепер) та списки таблиць (які відображають частоту для кожної відповідної форми в будь-якому доступному жанрі чи році).
Повний пошук колокацій (до десяти слів ліворуч і праворуч від слова-вузла).
Конкорданси, які можна повторно сортувати, показують найпоширеніші (спільні) слова/рядки ліворуч і праворуч від шуканого слова.

Порівняння між жанрами або періодами часу (наприклад, словосполучення зі словом «chair» (крісло, стілець) частіше використовуються у художній чи академічній літературі, іменники з дієсловом «break the [N]» (зламати + ім.) - у газетах чи академічних розділах, прикметники - в спортивних журналах, або дієслова, які є більш поширеними у 2005–2010 роках, ніж раніше).
Одноетапне порівняння колокацій споріднених слів, щоб вивчити семантичні або культурні відмінності між словами (наприклад, порівняння колокатів 'small' (малий), 'little' (маленький), 'tiny' (крихітний), 'miniscule' (мініатюрний), 'lilliputian' (ліліпут); або 'Democrats' (демократи) та 'Republicans' (республіканці); або 'men' (чоловіки) та 'women' (жінки)).
Користувачі можуть включати семантичну інформацію з тезаурусу на 60 000 записів безпосередньо як частину синтаксису запиту (наприклад, частіше синонімами слова 'beautiful' (красивий), 'strong' (сильний) користуються у ТБ/субтитрах фільмів та художній літературі, але не в академічній літературі).

Пошук слова 'away' за вимовою, в результаті отримуємо слова-рими до нього.

Корисним також є список із найпопулярніших 60 000 слів (лем), який містить багато інформації про кожне. Якщо слово знаходиться на ~ 5000-му місці, то воно частовживане, якщо ~ 25 000-му - середньовживане, і якщо ~ 45 000-му - рідковживане. До кожного слова користувач може послухати правильну вимову, подивитись відео з ним у тексті, знайти пов'язані картинки в Google Images та перекласти на бажану мову. Корпус надає можливість шукати у 60 000-му списку слово за вимовою, це є дуже зручно, через складність написання англійських слів (наприклад, при пошуку двоскладового слова з наголосом на другому складі 'away' ми отримуємо в результаті слова, які римуються із заданим 'today' - 'suvey' - 'display'...).
Крім цього користувачі можуть створювати свої «індивідуальні» списки слів, а потім повторно використовувати їх, як частину наступних запитів (наприклад, списки, пов’язані з певною семантичною категорією (одяг, їжа, емоції), або визначеною користувачем частиною мови).
Зверніть увагу, що корпус доступний лише через веб-інтерфейс через обмеження авторських прав.

Пов'язані ред.

Корпус Global Web-based English [Архівовано 2 квітня 2022 у Wayback Machine.] (GloWbE; вимовляється 'globe' [glowb]) містить близько 1,9 мільярда слів з текстів різних двадцяти країн. Це робить його приблизно в 100 разів більшим за інші корпуси, як-от Міжнародний корпус англійської мови, і дозволяє здійснювати багато типів пошуку, які були б неможливі в іншому випадку. На додаток до цього онлайн-інтерфейсу ви також можете завантажити повнотекстові дані з корпусу.

Корпус Global Web-based English [Архівовано 2 квітня 2022 у Wayback Machine.] унікальний тим, що дозволяє проводити порівняння між різними видами англійської мови та пов'язаний з багатьма іншими корпусами. ^[4]

Дивись також ред.

Бібліографія ред.

Davies, Mark (2010). The Corpus of Contemporary American English as the First Reliable Monitor Corpus of English. Literary and Linguistic Computing. 25 (4): 447—65. doi:10.1093/llc/fqq018.
Bennett, Gena R. (2010). Using Corpora in the Language Learning Classroom: Corpus Linguistics for Teachers. Ann Arbor, Michigan: University of Michigan. с. 144. ISBN 978-0-472-03385-0.
Davies, Mark (2010). More than a peephole: Using large and diverse online corpora. International Journal of Corpus Linguistics. 15 (3): 405—11. doi:10.1075/ijcl.15.3.13dav.
Anderson, Wendy; Corbett, John (2009), Exploring English with Online Corpora, Palgrave Macmillan, с. 205, ISBN 978-0-230-55140-4
Davies, Mark (2009). The 385+ Million Word Corpus of Contemporary American English (1990–present). International Journal of Corpus Linguistics. John Benjamins Publishing Company. 14 (2): 159–190(32). doi:10.1075/ijcl.14.2.02dav.
Lindquist, Hans (2009). Corpus Linguistics and the Description of English. Edinburgh University Press. ISBN 978-0-7486-2615-1.
Davies, Mark (2005). The advantage of using relational databases for large corpora: Speed, advanced queries, and unlimited annotation. International Journal of Corpus Linguistics. John Benjamins Publishing Company. 10 (3): 307–334(28). doi:10.1075/ijcl.10.3.02dav.

Посилання ред.

↑ Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English.
↑ Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. Архів оригіналу за 18 квітня 2022. Процитовано 9 листопада 2021.
↑ Kauhanen, Henri (21 березня 2011). The Corpus of Contemporary American English: Background and history. VARIENG. Архів оригіналу за 12 січня 2012. Процитовано 13 жовтня 2011.
↑ Corpus of Web-Based Global English. www.english-corpora.org. Архів оригіналу за 2 квітня 2022. Процитовано 18 грудня 2019.

Зовнішні посилання ред.

Офіційний сайт

[:0-1] Milana, Prior (2021). A Comparative Corpus Study on Intensifier Usage across Registers in American English.

[:2-2] Mark Davies, Professor of (Corpus) Linguistics, Brigham Young University (BYU). www.mark-davies.org. Архів оригіналу за 18 квітня 2022. Процитовано 9 листопада 2021.

[3] Kauhanen, Henri (21 березня 2011). The Corpus of Contemporary American English: Background and history. VARIENG. Архів оригіналу за 12 січня 2012. Процитовано 13 жовтня 2011.

[4] Corpus of Web-Based Global English. www.english-corpora.org. Архів оригіналу за 2 квітня 2022. Процитовано 18 грудня 2019.

[1]

[2]

[3]

[4]