Языковой ресурс - Language resource
В лингвистике и языковых технологиях языковой ресурс представляет собой «[состав] лингвистического материала, используемого при создании, улучшении и / или оценке приложений обработки языка, (...) в языковых и опосредованных языком исследованиях и приложениях».[1]
Согласно Bird & Simons (2003),[2] Это включает в себя
- данные, то есть `любая информация, которая документирует или описывает язык, например опубликованная монография, файл компьютерных данных или даже коробка для обуви, полная рукописных учетных карточек. Информация может варьироваться по содержанию от неанализированных звукозаписей до полностью транскрибированных и аннотированных текстов и до полной описательной грамматики »,[2]
- инструменты, т. е. «вычислительные ресурсы, которые облегчают создание, просмотр, выполнение запросов или иное использование языковых данных»,[2] и
- совет, то есть «любая информация о том, какие источники данных являются надежными, какие инструменты подходят в данной ситуации, какие методы следует соблюдать при создании новых данных». Последний аспект обычно называют "передовой практикой" или "стандартами (сообщества)".[2]
В более узком смысле языковой ресурс специально применяется к ресурсам, доступным в цифровая форма, а затем «охватывающие (а) наборы данных (текстовые, мультимодальные / мультимедийные и лексические данные, грамматики, языковые модели и т. д.) в машиночитаемой форме и (б) инструменты / технологии / услуги, используемые для их обработки и управления».[1]
Типология
По состоянию на май 2020 года широко используемая стандартная типология языковых ресурсов не была создана (текущие предложения включают LREMap,[3] METASHARE,[4] а для данных Классификация LLOD ). Важные классы языковых ресурсов включают
- данные
- лексические ресурсы, например, машиночитаемые словари,
- лингвистические корпуса, т.е. цифровые коллекции данных на естественном языке,
- лингвистические базы данных, такие как Кросс-лингвистические связанные данные коллекция,
- инструменты
- лингвистические аннотации и инструменты для создания таких аннотаций вручную или полуавтоматически (например, инструменты для аннотирования подстрочный глянцевый текст Такие как Ящик для инструментов и FLEx, или другой инструменты языковой документации ),
- приложения для поиска и извлечения таких данных (системы управления корпусом ), для автоматического аннотирования (теги части речи, синтаксический разбор, семантический разбор, так далее.),
- метаданные и словари
- словари, хранилища лингвистическая терминология и языковые метаданные, например, MetaShare (для метаданных языковых ресурсов),[4] то ISO 12620 реестр категорий данных (для лингвистических функций, структур данных и аннотаций в языковом ресурсе),[5] или Glottolog база данных (идентификаторы языковых разновидностей и библиографическая база данных).[6]
Публикация, распространение и создание языковых ресурсов
Основной задачей сообщества языковых ресурсов было развитие инфраструктуры и платформ для представления, обсуждения и распространения языковых ресурсов. Избранные статьи в этом отношении включают:
- серия Международные конференции по языковым ресурсам и оценке (LREC),
- то Европейская ассоциация языковых ресурсов (ELRA, базируется в ЕС) и Консорциум лингвистических данных (LDC, базируется в США), которые представляют собой коммерческие платформы хостинга и распространения языковых ресурсов,
- то Сообщество архивов открытых языков (OLAC), который предоставляет и объединяет метаданные языковых ресурсов,
- то Языковые ресурсы и оценочный журнал (LREJ).[7]
Что касается разработки стандартов и передовой практики для языковых ресурсов, они являются предметом нескольких групп сообщества и усилий по стандартизации, в том числе
- ISO Технический комитет 37: Терминология и другие языковые и информационные ресурсы (ISO / TC 37 ), разработка стандартов для всех аспектов языковых ресурсов,
- W3C Группа сообщества Лучшие практики для многоязычных связанных открытых данных (BPMLOD),[8] работа над рекомендациями по передовой практике публикации языковых ресурсов в качестве Связанные данные или в RDF,
- Группа сообщества W3C Связанные данные для языковых технологий (LD4LT),[9] работа над лингвистическими аннотациями в сети и метаданными языковых ресурсов,
- Группа сообщества W3C Онтология-Лексика (ОнтоЛекс ),[10] работа с лексическими ресурсами,
- рабочая группа по открытой лингвистике Фонд открытых знаний, работает над соглашениями для публикации и ссылки открыто языковые ресурсы, развивающие Лингвистически связанные открытые данные облако,[11]
- то Инициатива кодирования текста (TEI),[12] работа над XML спецификации на языковые ресурсы и текст, редактируемый в цифровом виде.
Рекомендации
- ^ а б LD4LT (2020), Онтология Metashare, созданная группой сообщества LD4LT, Связанные данные группы сообщества W3C для языковых технологий (LD4LT), ветвь разработки, версия от 10 марта 2020 г.
- ^ а б c d Птица, Стивен; Саймонс, Гэри (2003-11-01). «Расширение метаданных Dublin Core для поддержки описания и открытия языковых ресурсов». Компьютеры и гуманитарные науки. 37 (4): 375–388. arXiv:cs / 0308022. Bibcode:2003cs ........ 8022B. Дои:10.1023 / А: 1025720518994. ISSN 1572-8412. S2CID 5969663.
- ^ Кальцолари, Н., Дель Гратта, Р., Франкопуло, Дж., Мариани, Дж., Рубино, Ф., Руссо, И., и Сориа, К. (2012, май). Карта ЖРД. Согласование описаний ресурсов в сообществе. В LREC (стр. 1084-1089).
- ^ а б McCrae, John P .; Лабропулу, Пенни; Грация, Хорхе; Виллегас, Марта; Родригес-Донсель, Виктор; Чимиано, Филипп (2015). Гандон, Фабьен; Гере, Кристоф; Виллата, Серена; Бреслин, Джон; Фарон-Цукер, Кэтрин; Циммерманн, Антуан (ред.). «Одна онтология, которая связывает их всех: онтология META-SHARE OWL для взаимодействия наборов лингвистических данных в Интернете». Семантическая сеть: события-сателлиты ESWC 2015. Конспект лекций по информатике. Чам: Издательство Springer International. 9341: 271–282. Дои:10.1007/978-3-319-25639-9_42. ISBN 978-3-319-25639-9.
- ^ Кемпс-Снайдерс, М., Виндхауэр, М., Виттенбург, П., и Райт, С. Е. (2008). ISOcat: Загоночные категории данных в дикой природе. В 6-я Международная конференция по языковым ресурсам и оценке (LREC 2008).
- ^ Нордхофф, Себастьян (2012), Кьяркос, Кристиан; Нордхофф, Себастьян; Хеллманн, Себастьян (ред.), «Связанные данные для исследования языкового разнообразия: Glottolog / Langdoc и ASJP Online», Связанные данные в лингвистике: представление и связь языковых данных и языковых метаданных, Springer, стр. 191–200, Дои:10.1007/978-3-642-28249-2_18, ISBN 978-3-642-28249-2
- ^ «Языковые ресурсы и оценка». Springer. Получено 2020-05-13.
- ^ «Лучшие практики для многоязычной группы сообщества связанных открытых данных». www.w3.org. Получено 2020-05-13.
- ^ «Связанные данные для группы сообщества языковых технологий». www.w3.org. Получено 2020-05-13.
- ^ "Общественная группа Онтология-Лексика". www.w3.org. Получено 2020-05-13.
- ^ «Открытые лингвистические данные».
- ^ "TEI: Инициатива кодирования текста". tei-c.org. Получено 2020-05-13.