Caitra - Caitra

Caitra это перевод Computer Assisted Tool, или CAT, разработанная Эдинбургский университет. Предоставляется с онлайн-платформы, Caitra основана на AJAX Web.2 и декодер Моисея. Веб-страница инструмента реализована с Рубин на рельсах, веб-фреймворк с открытым исходным кодом и C ++.

Чайтра помогает переводчикам-людям предлагать предложения и альтернативные переводы.

История

Машинный перевод (MT) системы обычно используются читателями, которым не нужен тщательный перевод и нужен быстрый доступ к иностранному языку. Профессиональным переводчикам обычно требуются продвинутые инструменты машинного перевода, чтобы упростить их работу и предоставить более качественный перевод своим клиентам. Проект Trans-Type (Langlais et al., 2000) дал новаторский подход к машинному переводу в качестве помощи переводчикам-людям. . Этот инструмент перевода будет предлагать различные переводы для сегмента, предоставляя переводчику возможность принять предложенный перевод или перезаписать его своим собственным переводом, что, в свою очередь, вызовет новые потенциальные переводы в инструмент. Однако это не обязательно подходит для профессиональных переводчиков. Инструменты с функциями пост-редакции также были разработаны как промежуточное звено между типичным машинным переводом и переводчиками-людьми, чтобы интегрировать машинный перевод и человеческий перевод и добиться желаемых результатов. Школа информатики и группа машинного перевода Эдинбургского университета создали исследовательскую программу CAITRA для анализа преимуществ различных типов машинного перевода и изучения взаимодействия между машиной и пользователем с целью разработки новых CAT-инструменты.

Характеристики

Caitra запрограммирована с помощью веб-среды с открытым исходным кодом Ruby on Rails (Thomasand Hansson, 2008). Онлайн-платформа использует Технологии Web 2.0 в стиле Ajax (Raymond, 2007) подключен к MySQL серверная часть, управляемая базой данных. Серверная часть машинного перевода работает от статистический МП на основе предложений, Моисей (Koehn et al., 2007). C ++ интегрирован для повышения скорости процесса предложений по переводу. Инструмент предоставляется Школой информатики онлайн в качестве исследования взаимодействия пользователя с инструментом, а также дает возможность участникам предлагать дополнительные функции и исправления для программы. .

Пользователь вводит текст в предоставленное текстовое поле. Caitra обрабатывает текст, когда пользователь щелкает значок «Загрузить». Процесс может длиться несколько минут, и Каитра найдет разные варианты перевода, по умолчанию выбран один из них. По завершении процесса переводчикам предоставляется несколько вариантов помощи, представленных в интерфейсе. Сегмент для перевода - это предложение, поэтому Чайтра работает только с одним предложением одновременно.

Интерактивный машинный перевод

Проект Trans-Type (Langlais et al., 2000) провел расследование о Интерактивный машинный перевод, состоящий из перевода сегмента предложения с помощью CAT-программа, который предлагает несколько разных вариантов перевода. Переводчики-люди могут выбрать одного из них или предоставить свой собственный перевод, если им не нравятся предлагаемые переводы. Этот процесс похож на автозаполнение Инструмент используется в нескольких офисных программах.

В система статистического перевода следует для создания прогнозов для перевода. Эти прогнозы даются короткими фразами, согласно статистическая модель фразового перевода. Эта модель также облегчает пользователю чтение прогнозов. Предложения и действия пользователя хранятся в большой базе данных. Во время взаимодействия с пользователем Caitra быстро сопоставляет вводимые пользователем данные с графиком, используя меру расстояния редактирования строки. Прогноз - это оптимальный путь завершения, который соответствует вводу пользователя с (а) минимальным расстоянием редактирования строки и (б) наивысшей вероятностью перевода предложения. Этот вычисление происходит на сервере и реализуется на C ++, как объясняет Филипп Коэн.[1]Как только пользователь принимает предложение, отображается новое предложение, а также ввод нового сегмента. Принятие предложений зависит от пары языков и сложности текста. Предварительные исследования CAITRA показывают, что пользователи обычно принимают 50-80% прогнозов, генерируемых системой.

Процесс перевода

После загрузки текста пользователи могут видеть результат машинного перевода и редактировать текст на основе прогнозов. Таблица прогнозов отображается при нажатии значка редактирования. Текст разделен на предложения, которые также делятся на более мелкие части. Прогнозы для этих единиц отображаются в поле, а наиболее вероятное предложение имеет другой цвет в верхней части таблицы. Прогнозы принимаются, щелкнув по ним, и система обновляет результаты выборов, введенные пользователем. База данных состоит из количества пар переведенных текстов и переводов. Наиболее вероятный прогноз - результат предыдущих совпадений в базе данных. Выбор пользователя заносится в базу данных для использования в будущих переводах. Эти прогнозы помогают не только профессиональным переводчикам, но и начинающим переводчикам, не знающим словарный запас, и людям без знания иностранного языка.

Постредактирование машинного перевода

Пользователи могут рассмотрение их перевод и вносить любые изменения для исправления возможных ошибок. Изменения появятся на экране вывода.

Активность пользователей

Caitra хранит отведенное время, в течение которого пользователи принимают прогноз или пишут свой собственный перевод. Действия имеют разную важность для будущих прогнозов в зависимости от действий пользователя и времени, необходимого им для выполнения перевода. Каждое действие, пауза или движение актуальны для улучшения будущих переводов.

Рекомендации

  1. ^ Коэн, Филипп. «Веб-инструмент для интерактивного компьютерного перевода» (PDF). Школа информатики Эдинбургского университета.
  • Филипп Коэн, Хиеу Хоанг, Александра Берч, Крис Каллисон-Берч, Марчелло Федерико, Никола Бертольди, Брук Коуэн, Уэйд Шен, Кристин Моран, Ричард Зенс, Крис Дайер, Ондрей Бояр, Александра Константин, Эван Хербст. (2007) «Моисей: набор инструментов с открытым исходным кодом для статистического машинного перевода». Ежегодное собрание Ассоциации компьютерной лингвистики (ACL), демонстрационная сессия, Прага, Чешская Республика, июнь 2007 г.
  • Оливия Крачунеску, «Машинный перевод и компьютерный перевод: новый способ перевода?»

внешняя ссылка

Смотрите также