Американский национальный корпус - Википедия - American National Corpus
В Американский национальный корпус (ANC) - это текстовый корпус из Американский английский содержащий 22 миллиона слов письменных и устных данных, произведенных с 1990 года. В настоящее время ANC включает ряд жанров, в том числе новые жанры, такие как электронная почта, твиты и веб-данные, которые не включены в более ранние корпуса, такие как Британский национальный корпус. Это аннотировано для часть речи и лемма, неглубокий анализ, и названные объекты.
АНК доступен в Консорциум лингвистических данных. Подмножество из пятнадцати миллионов слов, называемое Открытый американский национальный корпус (OANC), находится в свободном доступе без ограничений на использование на веб-сайте ANC.
Корпус и аннотации к нему предоставлены в соответствии со спецификациями ISO / TC 37 Структура лингвистической аннотации SC4. Используя бесплатно предоставляемый инструмент преобразования (ANC2Go), корпус и выбранные пользователем аннотации предоставляются в нескольких форматах, включая формат CoNLL IOB, формат XML, соответствующий стандарту Стандарт кодирования корпуса XML (XCES) (можно использовать с Британский национальный корпус поисковой системы XAIRA), a UIMA -соответствующий формат и форматы, подходящие для ввода в широкий спектр программного обеспечения для согласования. Плагины для импорта аннотаций в Общая архитектура для текстовой инженерии (ВОРОТА) также доступны.
ANC отличается от других корпусов английского языка, потому что он богат аннотациями, включая различные часть речи аннотации (теги Penn, теги CLAWS5 и CLAWS7), мелкие аннотации синтаксического анализа, а также аннотации для нескольких типов названные объекты. Дополнительные аннотации добавляются ко всему корпусу или его частям по мере их появления, часто за счет участия других проектов. В отличие от корпусов с возможностью поиска в Интернете, которые из-за ограничений авторского права разрешают доступ только к отдельным предложениям, весь ANC доступен для проведения исследований, включающих, например, разработку статистических языковых моделей и полнотекстовых лингвистических аннотаций.
Аннотации ANC создаются автоматически и не проверяются. Подмножество из 500 000 слов, называемое Аннотированный вручную субкорпус (MASC) аннотируется примерно для 20 различных типов лингвистических аннотаций, все из которых были проверены вручную или созданы вручную. К ним относятся Penn Treebank синтаксическая аннотация, WordNet смысловая аннотация, FrameNet аннотации семантических фреймов, среди прочего. Как и OANC, MASC свободно доступен для любого использования и может быть загружен с сайта ANC или с Консорциум лингвистических данных. Он также распространяется в виде частей речи с тегами Инструментарий естественного языка.
ANC и его субкорпорации отличаются от аналогичных корпусов прежде всего набором лингвистических аннотаций и включением современных жанров, которые не встречаются в ресурсах, таких как Британский национальный корпус. Кроме того, поскольку первоначальная цель использования корпусов заключалась в разработке статистических языковых моделей, доступны полные данные и все аннотации, что отличается от Корпус современного американского английского (COCA), который доступен только выборочно через веб-браузер.
Продолжающийся рост OANC и MASC опирается на данные и аннотации сообществ компьютерной лингвистики и корпусной лингвистики.
Смотрите также
- Британский национальный корпус
- Oxford English Corpus
- Корпус современного американского английского (COCA).
Рекомендации
- Иде, Н. (2008). Американский национальный корпус: тогда, сейчас и завтра. В книге Майкла Хо, Кейт Берридж, Джин Малдер и Пэм Петерс (ред.), Избранные материалы семинара HCSNet 2008 года по разработке австралийского национального корпуса: сбор языков, проект Cascadilla Proceedings, Соммервилл, Массачусетс.
- Иде, Н., Судерман, К. (2004). Первый выпуск Американского национального корпуса. Труды Четвертой конференции по языковым ресурсам и оценке (LREC), Лиссабон, 1681-84.
- Иде, Н., Бейкер, К., Феллбаум, К., Пассонно, Р. (2010). Аннотированный вручную субкорпус: ресурс сообщества для людей и для людей
Труды 48-го ежегодного собрания Ассоциации компьютерной лингвистики, Упсала, Швеция.