Семья TenTen Corpus - Википедия - TenTen Corpus Family
В Семья TenTen Corpus (также называемый Корпуса TenTen) представляет собой набор сопоставимых сетей текстовые корпуса, т.е. сборники текстов, которые были пополз от Всемирная паутина и обработаны в соответствии с теми же стандартами. Эти корпуса доступны через Sketch Engine корпус-менеджер. Существуют корпуса TenTen для более чем 35 языков. Их целевой размер - 10 миллиардов (1010) слов на каждый язык, которые дали начало названию семейства корпуса.[1]
При создании корпуса TenTen данные, полученные из World Wide Web, обрабатываются с помощью обработка естественного языка инструменты, разработанные Центром обработки естественного языка на факультете информатики Масариковский университет (Брно, Чехия ) и компанией Lexical Computing (разработчик Sketch Engine).
Корпусная лингвистика
В корпусная лингвистика, а текстовый корпус представляет собой большую и структурированную коллекцию текстов, которые хранятся и обрабатываются в электронном виде. Он используется для проверки гипотез о языках, проверки лингвистических правил или частотного распределения слов (н-граммы ) внутри языков.
Корпуса с электронной обработкой обеспечивают быстрый поиск. Процедуры обработки текста, такие как токенизация, теги части речи и словесная неоднозначность обогатить корпус текстов подробной лингвистической информацией. Это позволяет сузить поиск до определенного части речи, последовательности слов или определенная часть корпуса.
Первые корпуса текстов были созданы в 1960-х годах, например, в 1 миллион слов Коричневый корпус из Американский английский. Со временем было произведено много других корпусов (например, Британский национальный корпус и LOB Corpus ), и работа началась также над корпусами большего размера, охватывающими другие языки, кроме английского. Это развитие было связано с появлением инструментов для создания корпусов, которые помогают достичь большего размера, более широкого охвата, более чистых данных и т. Д.
Производство корпусов TenTen
Процедура создания корпусов TenTen основана на ранее проведенных авторами исследованиях подготовки веб-корпусов и их последующей обработки.[2][3][4]
Вначале огромное количество текстовых данных скачано из Интернета с помощью специального поискового робота SpiderLing.[5] На более позднем этапе эти тексты подвергаются уборка, который заключается в удалении любого нетекстового материала, такого как навигационные ссылки, верхние и нижние колонтитулы, из HTML исходный код веб-страниц с инструментом jusText[6], так что сохраняются только полные твердые предложения. В конце концов, инструмент ONION[6] применяется к удалить повторяющиеся части текста из корпуса, которые естественным образом встречаются во всемирной паутине из-за таких практик, как цитирование, цитируя, копирование и Т. Д.[1]
Структура данных TenTen corpora
Корпуса TenTen следуют определенной структуре метаданных, общей для всех из них. Метаданные содержатся в структурных атрибутах, которые относятся к отдельным документам и параграфам в корпусе. Некоторые корпуса TenTen могут иметь дополнительные специфические атрибуты.
Атрибуты документа
- домен верхнего уровня - домен на высшем уровне иерархии система доменных имен (например, "com")
- интернет сайт - строка идентификации, определяющая область административной автономии в Интернете (например, "wikipedia.org")
- веб-домен - коллекция связанных веб-страниц (например, "la.wikipedia.org")
- дата сканирования - дата, когда документ был загружен из Интернета
- url - адрес Единый указатель ресурсов ссылаясь на источник документа
- wordcount - количество слов в документе
- длина - разделение документа на диапазон по длине, измеряемой тысячами слов
Атрибуты абзаца
- Заголовок - числовой признак, отличающий заголовки и аналогичные названия из обычных основной текст (1, если абзац является заголовком, 0 в противном случае)
Доступные корпуса TenTen
С октября 2018 года через Sketch Engine можно получить доступ к следующим корпусам:[7]
- arTenTen (арабский веб-корпус)[8]
- beTenTen (Белорусский веб-корпус)[9]
- bgTenTen (болгарский веб-корпус)[10]
- caTenTen (Каталонский веб-корпус)
- csTenTen (Чешский веб-корпус)[11]
- daTenTen (Датский веб-корпус)
- ОПРЕДЕЛЕНИЕ (Немецкий веб-корпус)
- elTenTen (Греческий веб-корпус)
- enTenTen (английский веб-корпус)[12]
- esTenTen (испанский веб-корпус с Европейский /Американский испанский subcorpora)[13]
- etTenTen (эстонский веб-корпус)[14]
- fiTenTen (Финский веб-корпус)
- frTenTen (Французский веб-корпус)
- heTenTen (иврит веб-корпус)
- HiTenTen (хинди веб-корпус)
- huTenTen (Венгерский веб-корпус)
- itTenTen (Итальянский веб-корпус)
- jaTenTen (Японский веб-корпус)
- kmTenTen (Кхмерский веб-корпус)
- koTenTen (Корейский веб-корпус)
- loTenTen (Лаосский & Является веб-корпус)
- ltTenTen (Литовский веб-корпус)
- lvTenTen (Латышский веб-корпус)
- mkTenTen (македонский веб-корпус)
- nlTenTen (нидерландский язык веб-корпус)
- noTenTen (норвежский язык веб-корпус)
- plTenTen (Польский веб-корпус)
- ptTenTen (португальский веб-корпус)
- roTenTen (румынский веб-корпус)
- ruTenTen (русский веб-корпус)
- skTenTen (словацкий веб-корпус)
- slTenTen (словенский веб-корпус)
- svTenTen (Шведский веб-корпус)
- thTenTen (Тайский веб-корпус)
- tlTenTen (Тагальский веб-корпус)
- trTenTen (турецкий веб-корпус)[15]
- ukTenTen (украинец веб-корпус)
- zhTenTen (Китайские упрощенные символы веб-корпус)
Смотрите также
Рекомендации
- ^ а б Якубичек, Милош; Килгаррифф, Адам; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Семья Тентен Корпус (PDF). 7-я Международная конференция по корпусной лингвистике CL. Ланкастер, Великобритания: Ланкастерский университет. стр. 125–127. Получено 13 июн 2017.
- ^ Барони, Марко; Килгаррифф, Адам; Коварж, Войтех; Рыхлы, Павел; Сухомель, Вит (июль 2013 г.). Большие веб-корпуса с лингвистической обработкой для нескольких языков (PDF). 11-я конференция европейского отделения ассоциации компьютерной лингвистики: плакаты и демонстрации. Ассоциация компьютерной лингвистики. Тренто, Италия: Ланкастерский университет. стр. 87–90. Получено 13 июн 2017.
- ^ Килгаррифф, Адам; Редди, Шива; Помикалек, Ян; Авинеш, ПВС (май 2010 г.). Фабрика корпусов для многих языков. 7-я конференция по языковым ресурсам и оценке. Валлетта, Мальта: Эльра. Получено 13 июн 2017.
- ^ Шарофф, Серж (2006). «Создание корпусов общего назначения с использованием автоматизированных поисковых запросов» (PDF). В Барони, Марко; Бернардини, Сильвия (ред.). Дурацкий! Рабочие документы в сети как Corpus. Болонья, Италия: GEDIT. С. 63–98. ISBN 978-88-6027-004-7.
- ^ Сухомель, Вит; Помикалек, янв (17 апреля 2012 г.). «Эффективное сканирование больших текстовых корпусов» (PDF). Труды седьмого семинара Web as Corpus (WAC7). 7-я Веб-как Мастерская Корпуса. Лион, Франция: Ассоциация компьютерной лингвистики (ACL) в Интернете как корпус. стр. 39–43. Получено 13 июн 2017.
- ^ а б Помикалек, янв (2011). Удаление шаблонного и дублированного контента из веб-корпуса (Кандидат наук). Факультет информатики Масариковского университета. Получено 17 апреля 2017.
- ^ "Семья ТенТен Корпус". www.sketchengine.eu. Sketch Engine. Получено 23 октября 2018.
- ^ Белинков Ю., Хабаш Н., Килгаррифф А., Ордан Н., Рот Р. и Сухомель В. (2013). arTen-Ten: новый обширный корпус для арабского языка. Труды WACL.
- ^ «Новый белорусский корпус (beTenTen)». Sketch Engine. Лексические вычисления. 2018-02-26. Получено 2018-04-06.
- ^ Килгаррифф А., Якубичек М., Помикалек Дж., Сардинья Т. Б. и Уайтлок П. (2014). PtTenTen: корпус португальской лексикографии. Работа с португальскими корпусами, 111-30.
- ^ Сухомель, Вит (7–9 декабря 2012 г.). "Последние чешские веб-корпуса". In Horák, A .; Rychlý, P. (ред.). Труды последних достижений в обработке славянского естественного языка, РАСЛАН 2012. Трибуна ЕС. С. 77–83.
- ^ Килгаррифф, Адам (2012). «Знакомство с вашим корпусом». Текст, речь и диалог. Конспект лекций по информатике. 7499. С. 3–15. CiteSeerX 10.1.1.452.8074. Дои:10.1007/978-3-642-32790-2_1. ISBN 978-3-642-32789-6.
- ^ Килгаррифф А. и Ренау И. (2013). esTenTen, обширный веб-корпус полуостровного и американского испанского. Процедурно-социальные и поведенческие науки, 95, 12-19.
- ^ СРДАНОВИЧ И. (2016). Исследовательский проект языковых ресурсов для изучающих японский язык. Интер Факультет, 6.
- ^ Байса, Вит; Сухомель, Вит (2015). «Поддержка тюркского языка в Sketch Engine». Материалы международной конференции «Обработка тюркских языков: TurkLang 2015».. Казань: Изд-во АН РТ. С. 214–223. ISBN 978-5-9690-0262-3 - через ИС МУ.
внешняя ссылка
- Семья TenTen Corpus (на сайте Sketch Engine)