Машинный перевод на основе трансфера - Transfer-based machine translation

Пирамида Бернара Вокуа показывает сравнительную глубину промежуточного представления с межъязычный машинный перевод на пике, затем на основе переноса, затем прямой перевод.

Машинный перевод на основе трансфера это тип машинный перевод (MT). В настоящее время это один из наиболее широко используемых методов машинного перевода. В отличие от более простых прямая модель МП, перенос МП разбивает перевод на три этапа: анализ текста исходного языка для определения его грамматической структуры, перенос полученной структуры в структуру, подходящую для создания текста на целевом языке, и, наконец, создание этого текста. Таким образом, системы машинного перевода на основе перевода могут использовать знание исходного и целевого языков.[1]

Дизайн

И машинный перевод на основе перевода, и на основе интерлингва имеет одну и ту же идею: чтобы сделать перевод, необходимо иметь промежуточное представление, которое фиксирует «значение» исходного предложения для создания правильного перевода. В МП на основе интерлингва это промежуточное представление должно быть независимым от рассматриваемых языков, тогда как в МП на основе передачи оно имеет некоторую зависимость от задействованной языковой пары.

Способы работы систем машинного перевода на основе переноса существенно различаются, но в целом они следуют одному и тому же шаблону: они применяют наборы лингвистических правил, которые определяются как соответствия между структурой исходного языка и структурой целевого языка. Первый этап включает анализ входящего текста на предмет морфология и синтаксис (и иногда семантика ) для создания внутреннего представления. Перевод создается из этого представления с использованием как двуязычных словарей, так и грамматических правил.

Эта стратегия перевода позволяет получать переводы достаточно высокого качества с точностью около 90%.[нечеткий ] (хотя это сильно зависит от рассматриваемой языковой пары, например, от расстояния между ними).

Операция

В основанной на правилах системе машинного перевода исходный текст сначала анализируется морфологически и синтаксически, чтобы получить синтаксическое представление. Затем это представление может быть уточнено до более абстрактного уровня, делая акцент на частях, относящихся к переводу, и игнорируя другие типы информации. Затем процесс передачи преобразует это окончательное представление (все еще на исходном языке) в представление того же уровня абстракции на целевом языке. Эти два представления называются «промежуточными» представлениями. Затем этапы применяются в обратном порядке из представления целевого языка.

Анализ и трансформация

До получения окончательного результата можно использовать различные методы анализа и трансформации. Наряду с этими статистическими подходами могут быть дополнены генерирующие гибридные системы. Выбранные методы и акцент во многом зависят от конструкции системы, однако большинство систем включают, по крайней мере, следующие этапы:

  • Морфологический анализ. Поверхностные формы входного текста подразделяются на части речи (например, существительное, глагол и т. Д.) И подкатегории (число, род, время и т. Д.). Все возможные «анализы» для каждой формы поверхности обычно выводятся на этом этапе вместе с лемма слова.
  • Лексическая категоризация. В любом данном тексте некоторые слова могут иметь более одного смысл, вызывая двусмысленность в анализе. Лексическая категоризация смотрит на контекст слова, чтобы попытаться определить правильное значение в контексте ввода. Это может включать теги части речи и значение смысла слова.
  • Лексический перевод. Это в основном словарный перевод; лемма исходного языка (возможно, со смысловой информацией) ищется в двуязычном словаре и выбирается перевод.
  • Структурный перенос. В то время как предыдущие этапы имеют дело со словами, этот этап имеет дело с более крупными составляющими, например фразы и куски. Типичные особенности этого этапа включают соответствие пола и числа, а также изменение порядка слов или фраз.
  • Морфологическое поколение. На основе результатов этапа структурного переноса создаются поверхностные формы целевого языка.

Типы переводов

Одной из основных особенностей систем машинного перевода на основе переноса является этап, на котором промежуточное представление текста на исходном языке «переносится» в промежуточное представление текста на целевом языке. Это может работать на одном из двух уровней лингвистического анализа или где-то посередине. Уровни бывают:

  • Поверхностный перевод (или синтаксический). Этот уровень характеризуется переносом «синтаксических структур» между исходным и целевым языками. Он подходит для языков в одной семье или одного типа, например, в Романские языки между испанским, каталонским, французским, итальянским и т. д.
  • Глубокий перевод (или семантический). Этот уровень создает семантическое представление, зависящее от исходного языка. Это представление может состоять из ряда структур, представляющих смысл. В этих системах передачи обычно создаются предикаты. Перевод также обычно требует структурного переноса. Этот уровень используется для перевода между более отдаленными родственными языками (например, испанско-английский или испано-баскский и т. Д.)

Рекомендации

  1. ^ Юрафски, Даниэль; Мартин, Джеймс Х. (2009). Обработка речи и языка. Пирсон. стр.906 –908.

Смотрите также