Корпус Ланкастер-Осло-Берген
Корпус Lancaster-Oslo/Bergen (LOB) — це колекція британських англійських текстів з мільйонів слів, яка була складена в 1970-х роках у співпраці між Університетом Ланкастера, Університетом Осло та Норвезьким обчислювальним центром гуманітарних наук, Берген, щоб надати британський аналог Браунівського корпусу, складеному Генрі Кучерою та В. Нельсоном Френсісом для американської англійської мови в 1960-х роках.
Його композиція була розроблена, щоб максимально відповідати оригінальному корпусу Брауна з точки зору його розміру та жанрів із використанням документів, опублікованих у Великобританії британськими авторами. Обидва корпуси складаються з 500 зразків, кожен із яких містить близько 2000 слів у таких жанрах:
Етикетка | Текстова категорія | Браунівський корпус | Корпус Ланкастер-Осло-Берген |
---|---|---|---|
A | Преса: репортаж | 44 | 44 |
B | Преса: редакція | 27 | 27 |
C | Преса: рецензії | 17 | 17 |
D | Релігія | 17 | 17 |
E | Навички, професії та хобі | 36 | 38 |
F | Популярні знання | 48 | 44 |
G | Художня література, біографія, нариси | 75 | 77 |
H | Різне (документи, звіти тощо) | 30 | 30 |
J | Наукові праці | 80 | 80 |
K | Загальна художня література | 29 | 29 |
L | Містика і детектив | 24 | 24 |
M | Наукова фантастика | 6 | 6 |
N | Пригоди та західна фантастика | 29 | 29 |
P | Романтика та історія кохання | 29 | 29 |
R | Гумор | 9 | 9 |
Разом | 500 | 500 |
Корпус також позначений тегами, тобто кожному слову присвоєно категорії частини мови.
Зовнішні посилання
ред.- Посібник LOB Corpus [Архівовано 1 квітня 2022 у Wayback Machine.]
- LOB Corpus з Оксфордського текстового архіву [Архівовано 3 березня 2022 у Wayback Machine.]