Семья TenTen Corpus - Википедия - TenTen Corpus Family

В Семья TenTen Corpus (также называемый Корпуса TenTen) представляет собой набор сопоставимых сетей текстовые корпуса, т.е. сборники текстов, которые были пополз от Всемирная паутина и обработаны в соответствии с теми же стандартами. Эти корпуса доступны через Sketch Engine корпус-менеджер. Существуют корпуса TenTen для более чем 35 языков. Их целевой размер - 10 миллиардов (10¹⁰) слов на каждый язык, которые дали начало названию семейства корпуса.^[1]

При создании корпуса TenTen данные, полученные из World Wide Web, обрабатываются с помощью обработка естественного языка инструменты, разработанные Центром обработки естественного языка на факультете информатики Масариковский университет (Брно, Чехия ) и компанией Lexical Computing (разработчик Sketch Engine).

Корпусная лингвистика

В корпусная лингвистика, а текстовый корпус представляет собой большую и структурированную коллекцию текстов, которые хранятся и обрабатываются в электронном виде. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов (н-граммы ) внутри языков.

Корпуса с электронной обработкой обеспечивают быстрый поиск. Процедуры обработки текста, такие как токенизация, теги части речи и словесная неоднозначность обогатить корпус текстов подробной лингвистической информацией. Это позволяет сузить поиск до определенного части речи, последовательности слов или определенная часть корпуса.

Первые корпуса текстов были созданы в 1960-х годах, например, в 1 миллион слов Коричневый корпус из Американский английский. Со временем было произведено много других корпусов (например, Британский национальный корпус и LOB Corpus ), и работа началась также над корпусами большего размера, охватывающими другие языки, кроме английского. Это развитие было связано с появлением инструментов для создания корпусов, которые помогают достичь большего размера, более широкого охвата, более чистых данных и т. Д.

Производство корпусов TenTen

Процедура создания корпусов TenTen основана на ранее проведенных авторами исследованиях подготовки веб-корпусов и их последующей обработки.^[2]^[3]^[4]

Вначале огромное количество текстовых данных скачано из Интернета с помощью специального поискового робота SpiderLing.^[5] На более позднем этапе эти тексты подвергаются уборка, который заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из HTML исходный код веб-страниц с инструментом jusText^[6], так что сохраняются только полные твердые предложения. В конце концов, инструмент ONION^[6] применяется к удалить повторяющиеся части текста из корпуса, которые естественным образом встречаются во всемирной паутине из-за таких практик, как цитирование, цитируя, копирование и Т. Д.^[1]

Структура данных TenTen corpora

Корпуса TenTen следуют определенной структуре метаданных, общей для всех из них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам в корпусе. Некоторые корпуса TenTen могут иметь дополнительные специфические атрибуты.

Атрибуты документа

домен верхнего уровня - домен на высшем уровне иерархии система доменных имен (например, "com")
интернет сайт - строка идентификации, определяющая область административной автономии в Интернете (например, "wikipedia.org")
веб-домен - коллекция связанных веб-страниц (например, "la.wikipedia.org")
дата сканирования - дата, когда документ был загружен из Интернета
url - адрес Единый указатель ресурсов ссылаясь на источник документа
wordcount - количество слов в документе
длина - разделение документа на диапазон по длине, измеряемой тысячами слов

Атрибуты абзаца

Заголовок - числовой признак, отличающий заголовки и аналогичные названия из обычных основной текст (1, если абзац является заголовком, 0 в противном случае)

Доступные корпуса TenTen

С октября 2018 года через Sketch Engine можно получить доступ к следующим корпусам:^[7]

arTenTen (арабский веб-корпус)^[8]
beTenTen (Белорусский веб-корпус)^[9]
bgTenTen (болгарский веб-корпус)^[10]
caTenTen (Каталонский веб-корпус)
csTenTen (Чешский веб-корпус)^[11]
daTenTen (Датский веб-корпус)
ОПРЕДЕЛЕНИЕ (Немецкий веб-корпус)
elTenTen (Греческий веб-корпус)
enTenTen (английский веб-корпус)^[12]
esTenTen (испанский веб-корпус с Европейский /Американский испанский subcorpora)^[13]
etTenTen (эстонский веб-корпус)^[14]
fiTenTen (Финский веб-корпус)
frTenTen (Французский веб-корпус)
heTenTen (иврит веб-корпус)
HiTenTen (хинди веб-корпус)
huTenTen (Венгерский веб-корпус)
itTenTen (Итальянский веб-корпус)
jaTenTen (Японский веб-корпус)
kmTenTen (Кхмерский веб-корпус)
koTenTen (Корейский веб-корпус)
loTenTen (Лаосский & Является веб-корпус)
ltTenTen (Литовский веб-корпус)
lvTenTen (Латышский веб-корпус)
mkTenTen (македонский веб-корпус)
nlTenTen (нидерландский язык веб-корпус)
noTenTen (норвежский язык веб-корпус)
plTenTen (Польский веб-корпус)
ptTenTen (португальский веб-корпус)
roTenTen (румынский веб-корпус)
ruTenTen (русский веб-корпус)
skTenTen (словацкий веб-корпус)
slTenTen (словенский веб-корпус)
svTenTen (Шведский веб-корпус)
thTenTen (Тайский веб-корпус)
tlTenTen (Тагальский веб-корпус)
trTenTen (турецкий веб-корпус)^[15]
ukTenTen (украинец веб-корпус)
zhTenTen (Китайские упрощенные символы веб-корпус)

Смотрите также

внешняя ссылка

Семья TenTen Corpus (на сайте Sketch Engine)

[tenten-1] а ^б Якубичек, Милош; Килгаррифф, Адам; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Семья Тентен Корпус (PDF). 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. стр. 125–127. Получено 13 июн 2017.

[2] Барони, Марко; Килгаррифф, Адам; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Большие веб-корпуса с лингвистической обработкой для нескольких языков (PDF). 11-я конференция европейского отделения ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. стр. 87–90. Получено 13 июн 2017.

[3] Килгаррифф, Адам; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков. 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: Эльра. Получено 13 июн 2017.

[4] Шарофф, Серж (2006). «Создание корпусов общего назначения с использованием автоматизированных поисковых запросов» (PDF). В Барони, Марко; Бернардини, Сильвия (ред.). Дурацкий! Рабочие документы в сети как Corpus. Болонья, Италия: GEDIT. С. 63–98. ISBN 978-88-6027-004-7.

[crawling-5] Сухомель, Вит; Помикалек, янв (17 апреля 2012 г.). «Эффективное сканирование больших текстовых корпусов» (PDF). Труды седьмого семинара Web as Corpus (WAC7). 7-я Веб-как Мастерская Корпуса. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпус. стр. 39–43. Получено 13 июн 2017.

[justext-6] а ^б Помикалек, янв (2011). Удаление шаблонного и дублированного контента из веб-корпуса (Кандидат наук). Факультет информатики Масариковского университета. Получено 17 апреля 2017.

[7] "Семья ТенТен Корпус". www.sketchengine.eu. Sketch Engine. Получено 23 октября 2018.

[8] Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус для арабского языка. Труды WACL.

[9] «Новый белорусский корпус (beTenTen)». Sketch Engine. Лексические вычисления. 2018-02-26. Получено 2018-04-06.

[10] Килгаррифф А., Якубичек М., Помикалек Дж., Сардинья Т. Б. и Уайтлок П. (2014). PtTenTen: корпус португальской лексикографии. Работа с португальскими корпусами, 111-30.

[11] Сухомель, Вит (7–9 декабря 2012 г.). "Последние чешские веб-корпуса". In Horák, A .; Rychlý, P. (ред.). Труды последних достижений в обработке славянского естественного языка, РАСЛАН 2012. Трибуна ЕС. С. 77–83.

[12] Килгаррифф, Адам (2012). «Знакомство с вашим корпусом». Текст, речь и диалог. Конспект лекций по информатике. 7499. С. 3–15. CiteSeerX 10.1.1.452.8074. Дои:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.

[13] Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского. Процедурно-социальные и поведенческие науки, 95, 12-19.

[14] СРДАНОВИЧ И. (2016). Исследовательский проект языковых ресурсов для изучающих японский язык. Интер Факультет, 6.

[15] Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine». Материалы международной конференции «Обработка тюркских языков: TurkLang 2015».. Казань: Изд-во АН РТ. С. 214–223. ISBN 978-5-9690-0262-3 - через ИС МУ.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

Корпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - Национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine