Ланкастер-Осло-Берген Корпус - Lancaster-Oslo-Bergen Corpus

В Ланкастер-Осло / Берген Корпус (часто сокращенно LOB Corpus) представляет собой собрание текстов британского английского языка объемом в миллион слов, которое было собрано в 1970-х годах в сотрудничестве между Ланкастерский университет, то Университет Осло, а Норвежский вычислительный центр гуманитарных наук, Берген, чтобы предоставить британский аналог Коричневый корпус составленный Генри Кучера и В. Нельсон Фрэнсис для американского английского в 1960-х.

Его состав был разработан, чтобы максимально соответствовать оригинальному корпусу Брауна с точки зрения его размера и жанров, используя документы, опубликованные в Великобритании британскими авторами. Оба корпуса состоят из 500 образцов, каждый из которых содержит около 2000 слов в следующих жанрах:

ЭтикеткаКатегория текстаКоричневый корпусLOB Corpus
АПресса: репортаж4444
BПресса: редакционная2727
CПресса: обзоры1717
DРелигия1717
EНавыки, профессии и хобби3638
FПопулярные знания4844
граммБеллетристика, биография, очерки7577
ЧАСРазное (документы, отчеты и т. Д.)3030
JУченые и научные труды8080
KОбщая художественная литература2929
LМистика и детективы2424
MНаучная фантастика66
NПриключения и вестерн2929
пРомантика и история любви2929
рЮмор99
Общий500500

Корпус также был отмечен, т.е. часть речи категории присвоены каждому слову.[нужна цитата ]

внешняя ссылка