Карта LRE - LRE Map
В Карта LRE (Language Resources and Evaluation) - это свободно доступная большая база данных о ресурсах, посвященных Обработка естественного языка. Оригинальная особенность LRE Map заключается в том, что записи собираются во время подачи различных основных Обработка естественного языка конференции. Затем записи очищаются и собираются в глобальную базу данных под названием «Карта LRE».[1]
Карта LRE предназначена для того, чтобы быть инструментом для сбора информации о языковых ресурсах и одновременно стать сообществом пользователей, местом для обмена и поиска ресурсов, обсуждения мнений, обратной связи, выявления новых тенденций и т. Д. представляет собой инструмент для обнаружения, поиска и документирования языковых ресурсов, здесь подразумевается в широком смысле как данные и инструменты.
Большой объем информации, содержащейся на карте, можно анализировать разными способами. Например, карта LRE может предоставить информацию о наиболее часто используемом типе ресурса, наиболее представленном языке, приложениях, для которых ресурсы используются или разрабатываются, соотношении новых ресурсов по сравнению с уже существующими или о том, как ресурсы распределяются среди сообщества.
Контекст
Несколько учреждений по всему миру ведут каталоги языковых ресурсов (ELRA, LDC, НИКТ Универсальный каталог, ACL Репозиторий данных и кода, OLAC, LT World и т. Д.)[2] Однако было подсчитано, что только 10% существующих ресурсов известны либо через каталоги распространения, либо через прямую рекламу провайдерами (веб-сайты и т.п.). Остальное остается скрытым, единственные случаи, когда они кратко всплывают, когда ресурс представлен в контексте исследовательской работы или отчета на какой-либо конференции. Тем не менее, даже в этом случае может случиться так, что ресурс останется в фоновом режиме просто потому, что в центре внимания исследования находится не ресурс. как таковой.
История
Карта LRE возникла под названием «Карта LREC» во время подготовки LREC Конференция 2010 г.[3] В частности, идея обсуждалась в рамках проекта FlaReNet и в сотрудничестве с ELRA и Институт компьютерной лингвистики CNR в Пизе Карта была представлена на выставке LREC 2010.[4] Организаторы LREC попросили авторов предоставить некоторую базовую информацию обо всех ресурсах (в широком смысле, включая инструменты, стандарты и оценочные пакеты), используемых или созданных, описанных в их документах. Затем все эти дескрипторы были собраны в глобальную матрицу, называемую LREC Map.
Та же методология и требования авторов были затем применены и распространены на другие конференции, а именно COLING-2010,[5] ЕМНЛП-2010,[6] РАНЛП-2011, г.[7] LREC 2012,[8] LREC 2014[9] и LREC 2016.[10]
После этого обобщения для других конференций карта LREC была переименована в Карта LRE.
Размер и содержание
Размер базы данных со временем увеличивается. Всего было собрано 4776 записей.
Каждый ресурс описывается в соответствии со следующими атрибутами:
- Тип ресурса, например лексикон, инструмент аннотации, теггер / парсер.
- Статус производства ресурсов, например вновь созданный законченный, существующий-обновленный.
- Доступность ресурсов, например в свободном доступе из центра обработки данных.
- Ресурсная модальность, например речь, написано, язык знаков.
- Использование ресурсов, например признание названного лица, идентификация языка, машинный перевод.
- Язык ресурса, например Английский, 23 языка Европейского Союза, официальные языки Индии.
Использует
Карта LRE - очень важный инструмент для построения графика области НЛП. По сравнению с другими исследованиями, основанными на субъективных оценках, карта LRE основана на реальных фактах.
У карты есть большой потенциал для множества применений, помимо того, что она является инструментом сбора информации:
- Это отличный инструмент для мониторинга развития области (полезен для спонсоров), если он применяется в разных контекстах и в разное время.
- Это можно рассматривать как огромные совместные усилия, начало еще более масштабных совместных действий не только нескольких лидеров, но и всех исследователей.
- Это также «образовательное» средство к широкому признанию необходимости метаисследовательской деятельности с активным участием многих.
- Это также способствует введению нового понятия «цитирование ресурсов», которое может обеспечить награду и средство научного признания исследователей, занимающихся созданием ресурсов.
- Он используется для помощи в организации конференций в данной области, например LREC.
Производные матрицы
Затем данные были очищены и отсортированы по Джозеф Мариани (CNRS-LIMSI IMMI) и Жиль Франкопуло (CNRS-LIMSI IMMI + Tagmatica) для вычисления различных матриц окончательного FLaReNet[11] отчеты. Одна из них, матрица записанных данных на LREC 2010, выглядит следующим образом:
Корпус | Лексикон | Онтология | Грамматика / язык Модель | Терминология | |
---|---|---|---|---|---|
болгарский | 7 | 6 | 1 | 1 | 1 |
Чешский | 12 | 7 | 2 | 1 | 1 |
Датский | 6 | 2 | 0 | 2 | 0 |
нидерландский язык | 17 | 8 | 2 | 1 | 2 |
английский | 206 | 77 | 18 | 11 | 10 |
эстонский | 3 | 1 | 0 | 0 | 1 |
Финский | 3 | 2 | 0 | 1 | 0 |
Французский | 44 | 24 | 3 | 4 | 5 |
Немецкий | 43 | 15 | 4 | 2 | 3 |
Греческий | 10 | 3 | 2 | 0 | 0 |
Венгерский | 8 | 4 | 0 | 1 | 1 |
Ирландский | 1 | 0 | 0 | 0 | 0 |
Итальянский | 32 | 16 | 4 | 2 | 0 |
Латышский | 9 | 0 | 0 | 0 | 1 |
Литовский | 4 | 0 | 2 | 0 | 1 |
Мальтийский | 1 | 0 | 0 | 1 | 0 |
Польский | 7 | 2 | 1 | 2 | 1 |
португальский | 19 | 6 | 1 | 1 | 0 |
румынский | 12 | 7 | 1 | 1 | 0 |
словацкий | 2 | 0 | 0 | 1 | 0 |
Словенский | 5 | 1 | 0 | 0 | 0 |
испанский | 29 | 19 | 4 | 5 | 2 |
Шведский | 19 | 4 | 0 | 1 | 0 |
Другая Европа | 19 | 11 | 3 | 3 | 2 |
Региональная Европа | 18 | 8 | 0 | 1 | 3 |
Многоязычный | 5 | 3 | 1 | 0 | 1 |
Независимый от языка | 9 | 3 | 16 | 2 | 1 |
Не применимый | 2 | 0 | 2 | 1 | 0 |
Общий | 552 | 229 | 67 | 45 | 36 |
Английский - самый изучаемый язык. Во-вторых, идут французский и немецкий языки, а затем итальянский и испанский.
Будущее
Карта LRE была расширена до языковых ресурсов и журнала оценок.[12] и другие конференции.
Рекомендации
- ^ Николетта Кальцолари, Клаудиа Сориа, Риккардо Дель Гратта, Сара Гогги, Валерия Куочи, Ирен Руссо, Халид Чукри, Джозеф Мариани, Стелиос Пиперидис, 2010 Карта языковых ресурсов и технологий LREC. LREC-2010, Мальта
- ^ Технический отчет FlaReNet, языковые ресурсы и карта оценки (LRE), Николетта Кальцолари (CNR-ILC, Пиза, Италия), Клаудиа Сориа, Ирен Руссо, Франческо Рубино, Риккардо Дель Гратта. eContentPlus проект [1]
- ^ Николетта Кальцолари, Представление председателя конференции LREC 2010
- ^ 7-е издание конференции по языковым ресурсам и оценке, Валлетта, Мальта
- ^ 23-я Международная конференция по компьютерной лингвистике, Пекин, Китай [2]
- ^ Эмпирические методы обработки естественного языка 9–11 октября, MIT Stata Center, Кембридж, Массачусетс, США [3]
- ^ Последние достижения в обработке естественного языка 12–14 сентября, Хисар, Болгария [4]
- ^ 8-е издание конференции по языковым ресурсам и оценке, Стамбул, Турция
- ^ 9-е издание конференции по языковым ресурсам и оценке, Рейкьявик, Исландия
- ^ 10-е издание конференции по языковым ресурсам и оценке, Порторож, Словения
- ^ FLaReNet (Fostering Language Resources Network) - это проект, финансируемый ЕС, который предназначен для разработки общего видения области языковых ресурсов и языковых технологий на следующие годы и содействия европейской стратегии для консолидации сектора и повышения конкурентоспособности на уровне ЕС и во всем мире. .
- ^ Языковые ресурсы и оценочный журнал Под ред. Springer