Oxford English Corpus - Oxford English Corpus
В Oxford English Corpus это текстовый корпус 21 века английский, используемые создателями Оксфордский словарь английского языка и по Oxford University Press программа языковых исследований. Это самый большой корпус в своем роде, содержащий почти 2,1 миллиард слова.[1]Он включает языки из Великобритании, США, Ирландии, Австралии, Новой Зеландии, Карибского бассейна, Канады, Индии, Сингапура и Южной Африки.[2] Текст в основном собран из веб-страница; некоторые печатные тексты, такие как академические журналы, были собраны для дополнения определенных предметных областей.[2] Источниками являются произведения всех видов, от «литературных романов и специализированных журналов до повседневных газет и журналов и от Hansard на язык блогов, электронной почты и социальных сетей ».[2] Это можно противопоставить аналогичным базам данных, в которых используется только определенный тип письма. Корпус обычно доступен только исследователям Oxford University Press, но другие исследователи, которые могут продемонстрировать сильную потребность, могут подать заявку на доступ.[2][3]
Цифровая версия Oxford English Corpus отформатирована в XML и обычно анализируется с помощью Sketch Engine программного обеспечения.[4] К 27 апреля 2006 года словарная база данных насчитывала 1 миллиард слов.[5]
Каждый документ в OE Corpus сопровождается метаданные именование:
- заглавие
- автор (если известен; многие сайты затрудняют надежное определение этого)
- пол автора (если известен)
- тип языка (например, британский английский, американский английский)
- исходный сайт
- год (+ дата, если известна)
- дата сбора
- домен + субдомен
- статистика документов (количество жетонов, предложений и т. д.)[4]
Смотрите также
- Британский национальный корпус
- Корпус современного американского английского (COCA)
- Американский национальный корпус
- Частотный анализ
Рекомендации
- ^ "Оксфордский английский корпус". Sketch Engine. Lexical Computing CZ s.r.o.. Получено 27 октября 2016.
- ^ а б c d "Оксфордский английский корпус". Оксфордские словари онлайн. Oxford University Press. Получено 8 ноября 2014.
- ^ «Сравнить COCA». Корпус современного американского английского. Архивировано из оригинал 7 ноября 2014 г.. Получено 8 ноября 2014.
- ^ а б Oxford English Corpus. Проверено 4 февраля 2014 года.
- ^ «Словарная база содержит миллиард слов». Northwest Herald. 27 апреля 2006 г. с. 2. Получено 15 марта 2020 - через Newspapers.com.
Эта статья о толковый словарь это заглушка. Вы можете помочь Википедии расширяя это. |