Карта LRE - LRE Map

В Карта LRE (Language Resources and Evaluation) - это свободно доступная большая база данных о ресурсах, посвященных Обработка естественного языка. Оригинальная особенность LRE Map заключается в том, что записи собираются во время подачи различных основных Обработка естественного языка конференции. Затем записи очищаются и собираются в глобальную базу данных под названием «Карта LRE».[1]

Карта LRE предназначена для того, чтобы быть инструментом для сбора информации о языковых ресурсах и одновременно стать сообществом пользователей, местом для обмена и поиска ресурсов, обсуждения мнений, обратной связи, выявления новых тенденций и т. Д. представляет собой инструмент для обнаружения, поиска и документирования языковых ресурсов, здесь подразумевается в широком смысле как данные и инструменты.

Большой объем информации, содержащейся на карте, можно анализировать разными способами. Например, карта LRE может предоставить информацию о наиболее часто используемом типе ресурса, наиболее представленном языке, приложениях, для которых ресурсы используются или разрабатываются, соотношении новых ресурсов по сравнению с уже существующими или о том, как ресурсы распределяются среди сообщества.

Контекст

Несколько учреждений по всему миру ведут каталоги языковых ресурсов (ELRA, LDC, НИКТ Универсальный каталог, ACL Репозиторий данных и кода, OLAC, LT World и т. Д.)[2] Однако было подсчитано, что только 10% существующих ресурсов известны либо через каталоги распространения, либо через прямую рекламу провайдерами (веб-сайты и т.п.). Остальное остается скрытым, единственные случаи, когда они кратко всплывают, когда ресурс представлен в контексте исследовательской работы или отчета на какой-либо конференции. Тем не менее, даже в этом случае может случиться так, что ресурс останется в фоновом режиме просто потому, что в центре внимания исследования находится не ресурс. как таковой.

История

Карта LRE возникла под названием «Карта LREC» во время подготовки LREC Конференция 2010 г.[3] В частности, идея обсуждалась в рамках проекта FlaReNet и в сотрудничестве с ELRA и Институт компьютерной лингвистики CNR в Пизе Карта была представлена ​​на выставке LREC 2010.[4] Организаторы LREC попросили авторов предоставить некоторую базовую информацию обо всех ресурсах (в широком смысле, включая инструменты, стандарты и оценочные пакеты), используемых или созданных, описанных в их документах. Затем все эти дескрипторы были собраны в глобальную матрицу, называемую LREC Map.

Та же методология и требования авторов были затем применены и распространены на другие конференции, а именно COLING-2010,[5] ЕМНЛП-2010,[6] РАНЛП-2011, г.[7] LREC 2012,[8] LREC 2014[9] и LREC 2016.[10]
После этого обобщения для других конференций карта LREC была переименована в Карта LRE.

Размер и содержание

Размер базы данных со временем увеличивается. Всего было собрано 4776 записей.

Каждый ресурс описывается в соответствии со следующими атрибутами:

Использует

Карта LRE - очень важный инструмент для построения графика области НЛП. По сравнению с другими исследованиями, основанными на субъективных оценках, карта LRE основана на реальных фактах.

У карты есть большой потенциал для множества применений, помимо того, что она является инструментом сбора информации:

  • Это отличный инструмент для мониторинга развития области (полезен для спонсоров), если он применяется в разных контекстах и ​​в разное время.
  • Это можно рассматривать как огромные совместные усилия, начало еще более масштабных совместных действий не только нескольких лидеров, но и всех исследователей.
  • Это также «образовательное» средство к широкому признанию необходимости метаисследовательской деятельности с активным участием многих.
  • Это также способствует введению нового понятия «цитирование ресурсов», которое может обеспечить награду и средство научного признания исследователей, занимающихся созданием ресурсов.
  • Он используется для помощи в организации конференций в данной области, например LREC.

Производные матрицы

Затем данные были очищены и отсортированы по Джозеф Мариани (CNRS-LIMSI IMMI) и Жиль Франкопуло (CNRS-LIMSI IMMI + Tagmatica) для вычисления различных матриц окончательного FLaReNet[11] отчеты. Одна из них, матрица записанных данных на LREC 2010, выглядит следующим образом:

КорпусЛексиконОнтологияГрамматика / язык
Модель
Терминология
болгарский76111
Чешский127211
Датский62020
нидерландский язык178212
английский20677181110
эстонский31001
Финский32010
Французский4424345
Немецкий4315423
Греческий103200
Венгерский84011
Ирландский10000
Итальянский3216420
Латышский90001
Литовский40201
Мальтийский10010
Польский72121
португальский196110
румынский127110
словацкий20010
Словенский51000
испанский2919452
Шведский194010
Другая Европа1911332
Региональная Европа188013
Многоязычный53101
Независимый от языка931621
Не применимый20210
Общий552229674536

Английский - самый изучаемый язык. Во-вторых, идут французский и немецкий языки, а затем итальянский и испанский.

Будущее

Карта LRE была расширена до языковых ресурсов и журнала оценок.[12] и другие конференции.

Рекомендации

  1. ^ Николетта Кальцолари, Клаудиа Сориа, Риккардо Дель Гратта, Сара Гогги, Валерия Куочи, Ирен Руссо, Халид Чукри, Джозеф Мариани, Стелиос Пиперидис, 2010 Карта языковых ресурсов и технологий LREC. LREC-2010, Мальта
  2. ^ Технический отчет FlaReNet, языковые ресурсы и карта оценки (LRE), Николетта Кальцолари (CNR-ILC, Пиза, Италия), Клаудиа Сориа, Ирен Руссо, Франческо Рубино, Риккардо Дель Гратта. eContentPlus проект [1]
  3. ^ Николетта Кальцолари, Представление председателя конференции LREC 2010
  4. ^ 7-е издание конференции по языковым ресурсам и оценке, Валлетта, Мальта
  5. ^ 23-я Международная конференция по компьютерной лингвистике, Пекин, Китай [2]
  6. ^ Эмпирические методы обработки естественного языка 9–11 октября, MIT Stata Center, Кембридж, Массачусетс, США [3]
  7. ^ Последние достижения в обработке естественного языка 12–14 сентября, Хисар, Болгария [4]
  8. ^ 8-е издание конференции по языковым ресурсам и оценке, Стамбул, Турция
  9. ^ 9-е издание конференции по языковым ресурсам и оценке, Рейкьявик, Исландия
  10. ^ 10-е издание конференции по языковым ресурсам и оценке, Порторож, Словения
  11. ^ FLaReNet (Fostering Language Resources Network) - это проект, финансируемый ЕС, который предназначен для разработки общего видения области языковых ресурсов и языковых технологий на следующие годы и содействия европейской стратегии для консолидации сектора и повышения конкурентоспособности на уровне ЕС и во всем мире. .
  12. ^ Языковые ресурсы и оценочный журнал Под ред. Springer

внешняя ссылка