Ланкастер-Осло-Берген Корпус - Lancaster-Oslo-Bergen Corpus
В Ланкастер-Осло / Берген Корпус (часто сокращенно LOB Corpus) представляет собой собрание текстов британского английского языка объемом в миллион слов, которое было собрано в 1970-х годах в сотрудничестве между Ланкастерский университет, то Университет Осло, а Норвежский вычислительный центр гуманитарных наук, Берген, чтобы предоставить британский аналог Коричневый корпус составленный Генри Кучера и В. Нельсон Фрэнсис для американского английского в 1960-х.
Его состав был разработан, чтобы максимально соответствовать оригинальному корпусу Брауна с точки зрения его размера и жанров, используя документы, опубликованные в Великобритании британскими авторами. Оба корпуса состоят из 500 образцов, каждый из которых содержит около 2000 слов в следующих жанрах:
Этикетка | Категория текста | Коричневый корпус | LOB Corpus |
---|---|---|---|
А | Пресса: репортаж | 44 | 44 |
B | Пресса: редакционная | 27 | 27 |
C | Пресса: обзоры | 17 | 17 |
D | Религия | 17 | 17 |
E | Навыки, профессии и хобби | 36 | 38 |
F | Популярные знания | 48 | 44 |
грамм | Беллетристика, биография, очерки | 75 | 77 |
ЧАС | Разное (документы, отчеты и т. Д.) | 30 | 30 |
J | Ученые и научные труды | 80 | 80 |
K | Общая художественная литература | 29 | 29 |
L | Мистика и детективы | 24 | 24 |
M | Научная фантастика | 6 | 6 |
N | Приключения и вестерн | 29 | 29 |
п | Романтика и история любви | 29 | 29 |
р | Юмор | 9 | 9 |
Общий | 500 | 500 |
Корпус также был отмечен, т.е. часть речи категории присвоены каждому слову.[нужна цитата ]