Удобство использования программного обеспечения для машинного перевода - Machine translation software usability

В разделах ниже приведены объективные критерии оценки удобства использования машинный перевод программный вывод.

Стационарность или каноническая форма

Сходятся ли повторяющиеся переводы в одном выражении на обоих языках? Т.е. показывает ли метод перевода стационарность или произвести каноническая форма ? Становится ли перевод стационарным, не теряя первоначального смысла? Этот показатель подвергся критике за то, что он плохо коррелирует с BLEU (Двуязычный экзаменатор) баллов.[1]

Адаптируется к разговорной речи, арго или сленгу

Адаптирована ли система к разговорный язык, арго или же сленг ? В французский язык имеет много правил для создания слов в речи и написании популярная культура. Два таких правила: (а) Обратное написание таких слов, как женщина к Meuf. (Это называется Верлан.) (б) Присоединение суффикса -ард существительному или глаголу, чтобы образовать существительное собственное. Например, существительное фалуч означает «студенческая шляпа». Слово Faluchard сформированный из фалуч в разговорной речи может означать, в зависимости от контекста, «группа студентов», «собрание студентов» и «поведение, типичное для студента». Переводчик Google по состоянию на 28 декабря 2006 г. не выводит составные слова, как, например, из правила (b), как показано здесь:

Il y une chorale falucharde mercredi, venez nombreux, les faluchards chantent des paillardes! ==> В среду проходит хоровое общество falucharde, приходят многие, поют распутные женщины!

Французский арго имеет три уровня использования:[2]

  1. знакомый или дружелюбный, приемлемый среди друзей, семьи и сверстников, но не на работе
  2. грубее или ругательства, приемлемые для друзей и сверстников, но не на работе или в семье
  3. Верлан или сленг гетто, приемлемый для низших классов, но не для среднего или высшего классов

Соединенные Штаты Национальный институт стандартов и технологий проводит ежегодные оценки [1] из машинный перевод системы на основе BLEU -4 критерий [2]. Комбинированный метод под названием IQmt, который включает BLEU и дополнительные показатели NIST, GTM, ROUGE и METEOR, был реализован Гименесом и Амиго. [3].

Правильный вывод

Грамматический ли вывод или правильно сформированный на целевом языке? Использование интерлингва должно быть полезным в этом отношении, потому что при фиксированном интерлингве человек должен иметь возможность написать грамматическое отображение на целевой язык из интерлингва. Рассмотрим следующие арабский язык ввод и английский язык результат перевода переводчиком Google по состоянию на 27 декабря 2006 г. [4]. Этот вывод переводчика Google не анализирует с использованием разумных английская грамматика:

وعن حوادث التدافع عند شعيرة رمي الجمرات -التي كثيرا ما يسقط فيها العديد من الضحايا- أشار الأمير نايف إلى إدخال "تحسينات كثيرة في جسر الجمرات ستمنع بإذن الله حدوث أي تزاحم". ==> И инциденты, связанные с ритуалом бросания карбункулов, которые часто выпадают там, где многие жертвы - принц Найеф указал на введение «многих улучшений в мосту карбункулов, который Бог остановит появление любых конкурирующих».

Сохранение семантики

Повторные переводы сохраняют семантика исходного предложения? Например, представьте, что следующий ввод на английском языке передается несколько раз на французский и обратно с помощью переводчика Google по состоянию на 27 декабря 2006 года:

Лучше на день раньше, чем на день позже. ==>

Améliorer un jour plus tôt qu'un jour tard. ==>

Улучшение на день раньше, чем на день позже. ==>

Вылейте améliorer un jour plus to qu'un jour tard. ==>

Улучшение на день раньше, чем на день позже.

Как отмечалось выше и в[1] такой вид двустороннего перевода - очень ненадежный метод оценки.

Надежность и безопасность

Интересная особенность переводчик Google по состоянию на 24 января 2008 г. (исправлено от 25 января 2008 г.) следующий результат при переводе с английского на испанский, который показывает встроенный шутить в англо-испанском словаре, который стал более пикантным с учетом последних событий:

Хит Леджер мертв ==>

Том Круз Está Muerto

Это поднимает вопрос надежности, если полагаться на систему машинного перевода, встроенную в Жизненно важная система в котором система перевода вводит данные Принятие важных для безопасности решений процесс. В то же время возникает вопрос о том, является ли программное обеспечение системы машинного перевода безопасный из хакеры.

Неизвестно, была ли эта функция Google Translate результатом шутки / взлома или, возможно, непреднамеренным последствием использования такого метода, как статистический машинный перевод. Репортеры из Сети CNET попросил Google объяснений 24 января 2008 г .; Google сказал только, что это «внутренняя проблема с Google Translate».[3] Неправильный перевод стал предметом множества шуток и спекуляций в Интернете.[4][5]

Если это непредвиденное последствие использования такого метода, как статистический машинный перевод, а не шутка / взлом, то это событие является демонстрацией потенциального источника критической ненадежности метода статистического машинного перевода.

В человеческих переводах, в частности со стороны переводчики избирательность переводчика при выполнении перевода часто комментируется, когда одна из двух сторон, обслуживаемых переводчиком, знает оба языка.

Это приводит к вопросу о том, можно ли рассматривать конкретный перевод проверяемый. В этом случае сходящийся двусторонний перевод будет своего рода проверкой.

Смотрите также

Примечания

  1. ^ а б Сомерс, Гарольд (2005). «Перевод в оба конца: для чего он нужен?». Материалы семинара по технологиям австралийского языка ALTW 2005. Сидней: 127–133.
  2. ^ "Агония Аргота", Chitlins & Camembert, 28 октября 2005 г.
  3. ^ "Ошибка Google Translate путает Хита Леджера и Тома Круза", Кэролайн Маккарти, Сети CNET, 24 января 2008 г.
  4. ^ «Том Круз» в переводе с испанского означает «Хит Леджер», gawker.com, 24 января 2008 г. В архиве 28 января 2008 г. Wayback Machine
  5. ^ "Tom Cruise está muerto", проект блога Рэя Леона, 24 января 2008 г. В архиве 29 октября 2008 г. Wayback Machine

Рекомендации