Машинный перевод на основе примеров - Example-based machine translation

Машинный перевод на основе примеров (EBMT) - метод машинный перевод часто характеризуется использованием двуязычного корпус с участием параллельные тексты в качестве основной базы знаний во время выполнения. По сути, это перевод аналогия и может рассматриваться как реализация аргументация по делу подход к машинное обучение.

Перевод по аналогии

В основе машинного перевода на основе примеров лежит идея перевода по аналогии. Применительно к процессу человеческого перевода идея о том, что перевод осуществляется по аналогии, является отказом от идеи, что люди переводят предложения, выполняя глубокий лингвистический анализ. Вместо этого он основан на вере в то, что люди переводят, сначала разбивая предложение на определенные фразы, затем переводя эти фразы и, наконец, правильно составляя эти фрагменты в одно длинное предложение. Фразовые переводы переводятся по аналогии с предыдущими переводами. Принцип перевода по аналогии кодируется в машинном переводе на основе примеров с помощью примеров переводов, которые используются для обучения такой системы.

Другие подходы к машинному переводу, включая статистический машинный перевод, также используйте двуязычные корпуса, чтобы изучить процесс перевода.

История

Машинный перевод на основе примеров был впервые предложен Макото Нагао в 1984 г.[1] Он отметил, что он особенно адаптирован для перевода между двумя совершенно разными языками, такими как английский и японский. В этом случае одно предложение может быть переведено в несколько хорошо структурированных предложений на другом языке, поэтому нет смысла проводить глубокий лингвистический анализ, характерный для машинный перевод на основе правил.

пример

Пример двуязычного корпуса
английскийЯпонский
Сколько это стоит красный зонт?Ано акай каса ва ikura desu ka.
Сколько это стоит маленькая камера?Ано chiisai kamera ва ikura desu ka.

Системы машинного перевода на основе примеров обучаются из двуязычных параллельных корпусов, содержащих пары предложений, как в примере, показанном в таблице выше. Пары предложений содержат предложения на одном языке с их переводами на другой. В конкретном примере показан пример минимальная пара, что означает, что предложения различаются только одним элементом. Эти предложения упрощают изучение переводов частей предложения. Например, основанная на примерах система машинного перевода изучает три единицы перевода из приведенного выше примера:

  1. Сколько это стоит Икс ? соответствует Ано Икс ва ikura desu ka.
  2. красный зонт соответствует акай каса
  3. маленькая камера соответствует chiisai kamera

Составление этих единиц может быть использовано для создания новых переводов в будущем. Например, если мы были обучены с использованием некоторого текста, содержащего предложения:

Президент Кеннеди был застрелен во время парада. и Осужденный совершил побег 15 июля. Мы могли бы перевести предложение Осужденный был застрелен во время парада. путем замены соответствующих частей предложений.

Фразовые глаголы

Машинный перевод на основе примеров лучше всего подходит для таких подъязыковых явлений, как фразовые глаголы. Значение фразовых глаголов сильно зависит от контекста. Они распространены в английском языке, где состоят из глагола, за которым следует наречие и / или предлог, которые называются частица к глаголу. Фразовые глаголы производят специализированные контекстно-зависимые значения, которые не могут быть производными от значений составляющих. При дословном переводе с исходного на целевой язык почти всегда возникает двусмысленность.

В качестве примера рассмотрим фразовый глагол «надеть» и его Хиндустани перевод. Его можно использовать любым из следующих способов:

  • Рам включил свет. (Включено) (Перевод на хиндустани: Джалана)
  • Рам надел кепку. (Wear) (перевод на хиндустанский: Пахенна)

Смотрите также

использованная литература

  1. ^ Макото Нагао (1984). «Рамка механического перевода с японского на английский по принципу аналогии» (PDF). В А. Элитхорне и Р. Банерджи (ред.). Искусственный и человеческий интеллект. Издательство Elsevier Science.

дальнейшее чтение

внешние ссылки

  • Куней - платформа с открытым исходным кодом для машинного перевода на основе данных, которая выросла из исследований в EBMT, но также включает в себя последние достижения SMT поле