EuroMatrixPlus - EuroMatrixPlus

В EuroMatrixPlus - это проект, который проходил с марта 2009 года по февраль 2012 года. EuroMatrixPlus стал преемником проекта под названием Евроматрикс (С сентября 2006 г. по февраль 2009 г.) и продолжил дальнейшее развитие и улучшение машинный перевод (MT) системы для языков Евросоюз (ЕВРОПА).

Цели проекта

EuroMatrixPlus сосредоточился на достижении нескольких целей:

  • Продолжить продвижение технологии машинного перевода (создать системы машинного перевода для всех официальных языков ЕС и предоставить другим исследователям машинного перевода существующие данные и инфраструктуру).
  • Постоянно расширять и исследовать различные подходы и методы машинного перевода; оставаться открытым для новых комбинаций методов МП.
  • Довести МП до пользователей. Пользователи пост-редактируют результаты статистических моделей, и система учится на обратной связи и улучшается. Две группы пользователей были нацелены на:
    • Профессиональные переводчики и бюро переводов
    • Пользователи, которые добровольно переводят тексты на свой родной язык
  • Участвовать в исследованиях машинного перевода в Европе.
  • Создать образец приложения для автоматического перевода новостей и веб-страниц и сделать это приложение свободно доступным.

Исход

EuroMatrixPlus внес свой вклад в развитие машиностроения несколькими способами. Он продолжил разработку статистической системы машинного перевода с открытым исходным кодом. Моисей. Проект работал над исследованиями в гибридные подходы к МП (комбинация основанный на правилах и статистический техники). Проектом были организованы несколько «MT Marathons» и ежегодные оценочные кампании. По результатам проекта выпущено 196 научных публикаций.

Результаты работы были сгруппированы в десять рабочих пакетов:[1]

  • WP1: Богатый статистический перевод на основе дерева
  • WP2: Гибридный машинный перевод
  • WP3: Расширенные методы обучения машинному обучению
  • WP4: Инструменты и данные с открытым исходным кодом
  • WP5: Среда перевода "WikiTrans"
  • WP6: Интегрированный рабочий процесс локализации
  • WP7: Оценочная кампания
  • WP8: Управление проектами и распространение
  • WP9: Интеграция словацких языковых ресурсов
  • WP10: Статистический перевод на основе HPSG

Программное обеспечение и данные

Вот список программного обеспечения и данных, выпущенных проектом:[2]

  • Appraise - инструмент с открытым исходным кодом для ручной оценки результатов MT
  • БУРГЕР - Болгарский ресурс
  • BulTreeBank - Древесный банк Болгарии
  • Набор инструментов CSLM - бесплатный инструмент для обучения языковых моделей непрерывного пространства (CSLM) для решения больших задач
  • Caitra - инструмент для постредактирования результатов МП
  • Europarl - Параллельный корпус Европейского парламента
  • IRSTLM toolkit - инструмент для обучения языковых моделей
  • Joshua - декодер статистического машинного перевода с открытым исходным кодом для иерархического и синтаксического машинного перевода
  • MT Server Land - архитектура с открытым исходным кодом для MT
  • Моисей - статистическая МП
  • MultiUN Corpora - параллельный корпус, извлеченный с веб-сайта Организации Объединенных Наций
  • PCEDT 2.0 - Чешско-английский филиал в Праге Treebank
  • PEDT 2.0 - английская часть чешско-английского Dependency Treebank в Праге
  • Словацкий корпус - англо-словацкий и чешско-словацкий, а также словацко-английский и словацко-чешский параллельный корпус
  • Словацкий treebank - древовидный банк зависимостей
  • TermEx - Инструмент для извлечения статистической терминологии, подходящий для RBMT
  • Treex, TectoMT

Финансирование

Спонсором проекта EuroMatrixPlus выступила Программа ЕС по технологиям информационного общества.

Общая стоимость проекта составила 5 942 121 евро, из которых Европейский Союз внес 4 266 896 евро.[3]

Участники проекта

Чтобы обеспечить развитие машинного перевода, несколько организаций, которые являются экспертами в различных дисциплинах (лингвистика, информатика, математика, перевод), были объединены для сотрудничества в рамках EuroMatrixPlus.

Консорциум состоял как из академических, так и коммерческих партнеров. Академическими партнерами были Эдинбургский университет (Объединенное Королевство), DFKI - Немецкий исследовательский центр искусственного интеллекта (Германия), Карлов университет (Чехия), Университет Джона Хопкинса (Соединенные Штаты), Университет Ле-Мана (Франция), Fondazione Bruno Kessler (Италия), Дублинский городской университет (Ирландия). Два учреждения присоединились к проекту примерно через год. Это были Институт лингвистики Людовита Штура (Словацкая Республика) и IICT - Институт информационных и коммуникационных технологий Болгарской академии наук (Болгария).

Коммерческими партнерами были Lucy Software and Services GmbH (Германия) и CEET s.r.o. (Чехия).

Координация проекта осуществлялась DFKI с его лабораторией языковых технологий в Саарбрюккене. Главный исследователь и научный координатор был Ганс Ушкорейт, профессор компьютерной лингвистики в Саарский университет.

Рекомендации

внешняя ссылка