История машинного перевода - History of machine translation

Машинный перевод является подполе компьютерная лингвистика который исследует использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти уже в 17 веке. В Джорджтаунский эксперимент, который включал в себя успешный полностью автоматический перевод более шестидесяти русских предложений на английский в 1954 году, был одним из самых ранних записанных проектов.[1][2] Исследователи Джорджтаунского эксперимента подтвердили свою веру в то, что машинный перевод станет решаемой проблемой в течение трех-пяти лет.[3] Вскоре после этого в Советском Союзе были проведены аналогичные эксперименты.[4] Следовательно, успех эксперимента положил начало эре значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; в 1966 г. Отчет ALPAC обнаружил, что десять лет исследований не оправдали ожиданий эксперимента в Джорджтауне и привели к резкому сокращению финансирования.[нужна цитата ].

Интерес вырос в статистические модели для машинного перевода, который стал более распространенным и менее дорогим в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста»,[5][6][7] Сейчас доступно множество программ, способных обеспечить полезный вывод в строгих ограничениях. Некоторые из этих программ доступны в Интернете, например переводчик Google и SYSTRAN система, на которой работает AltaVista BabelFish (теперь Yahoo's Babelfish по состоянию на 9 мая 2008 г.).

Начало

Истоки машинного перевода восходят к работе Аль-Кинди, арабский 9-го века криптограф кто разработал методы системного языкового перевода, в том числе криптоанализ, частотный анализ, и вероятность и статистика, которые используются в современном машинном переводе.[8] Идея машинного перевода появилась позже в 17 веке. В 1629 г. Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющими один символ.[9]

В середине 1930-х годов Жорж Арцруни подал заявку на первые патенты на «машины-переводчики» на автоматический двуязычный словарь, использующий бумажная лента. русский Петр Троянский представил более подробное предложение[10][11] который включал в себя как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто. Эта система была разделена на три этапа: первый этап состоял из редактора-носителя языка исходного языка, который организовывал слова в их логические формы и выполнять синтаксические функции; на втором этапе машина должна «перевести» эти формы на целевой язык; и на третьем этапе для нормализации этого вывода требовался редактор с родным языком на целевом языке. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры были широко известны и широко использовались.

Ранние годы

Первый набор предложений по машинному переводу на базе компьютера был представлен в 1949 г. Уоррен Уивер, научный сотрудник Фонд Рокфеллера, "Меморандум о переводе ".[12] Эти предложения основывались на теория информации, успехи в взлом кода вовремя Вторая мировая война, и теории об универсальных принципах, лежащих в основе естественный язык.

Спустя несколько лет после того, как Уивер представил свои предложения, во многих университетах Соединенных Штатов начались серьезные исследования. 7 января 1954 г. Джорджтаун-IBM эксперимент прошел в Нью-Йорке в головном офисе IBM. Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и ​​вызвала общественный интерес. Однако сама система была не более чем «игрушечной» системой. В нем было всего 250 слов и 49 тщательно отобранных русских предложений были переведены на английский язык - в основном в области химия. Тем не менее, он поддержал идею о неизбежности машинного перевода и стимулировал финансирование исследований не только в США, но и во всем мире.[3]

Ранние системы использовали большие двуязычные словари и закодированные вручную правила для фиксации порядка слов в окончательном результате, что в конечном итоге считалось слишком ограничивающим в лингвистических разработках в то время. Например, генеративная лингвистика и трансформационная грамматика были использованы для улучшения качества переводов. В этот период были установлены операционные системы. В ВВС США использовал систему, произведенную IBM и Вашингтонский университет, в то время как Комиссия по атомной энергии и Евратом в Италии использовала систему, разработанную в Джорджтаунский университет. Несмотря на то, что качество продукции было низким, оно отвечало многим потребностям клиентов, особенно в отношении скорости.[нужна цитата ]

В конце 1950-х гг. Иегошуа Бар-Гилель Правительство США попросило изучить машинный перевод, чтобы оценить возможность полностью автоматического машинного перевода высокого качества. Бар-Гиллель описал проблему семантической двусмысленности или двусмысленности, как показано в следующем предложении:

Маленький Джон искал свой ящик с игрушками. Наконец он нашел это. Коробка была в ручке.

Слово ручка может иметь два значения: первое значение, то, что используется для письма чернилами; второе значение - какой-то контейнер. Для человека смысл очевиден, но Бар-Гиллель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время эту семантическую неоднозначность можно было решить только путем написания исходных текстов для машинного перевода в контролируемый язык который использует словарный запас в котором каждое слово имеет ровно одно значение.[нужна цитата ]

1960-е, отчет ALPAC и семидесятые годы

Исследования 1960-х гг. Советский союз а Соединенные Штаты сконцентрировались в основном на языковой паре русский – английский. Объектами перевода были в основном научно-технические документы, например статьи из научные журналы. Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, считающаяся конфиденциальной, ее отправляли переводчику-человеку для полного перевода; в противном случае его выбросили.

Большой удар был нанесен исследованиям машинного перевода в 1966 году с публикацией Отчет ALPAC. Отчет подготовлен по заказу правительства США и представлен ALPAC, Консультативный комитет по автоматической обработке языка, группа из семи ученых, созванная правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. В отчете был сделан вывод о том, что машинный перевод был более дорогим, менее точным и медленным, чем перевод, выполняемый человеком, и что, несмотря на затраты, машинный перевод вряд ли в ближайшем будущем достигнет качества переводчика-человека.

В отчете, однако, рекомендовалось разработать инструменты для помощи переводчикам - например, автоматические словари - и продолжить поддержку некоторых исследований в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования машинного перевода в Соединенных Штатах, и в меньшей степени на Советский союз и Соединенное Королевство. Исследования, по крайней мере, в США, были почти полностью заброшены на более чем десятилетие. Однако в Канаде, Франции и Германии исследования продолжались. В США основным исключением были основатели Systran (Питер Тома ) и Логотипы (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 г. Систран система была установлена ​​для ВВС США, а затем Комиссия Европейских Сообществ в 1976 г. Система МЕТЕО, разработанный в Université de Montréal, была установлена ​​в Канаде в 1977 году для перевода прогнозов погоды с английского на французский и переводила около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 г. не была заменена системой конкурентов.[13]

В то время как исследования 1960-х годов были сосредоточены на ограниченном количестве языковых пар и вводимых данных, в 1970-х годах спрос был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван увеличением глобализация и спрос на перевод в Канаде, Европе и Японии.[нужна цитата ]

1980-е и начало 1990-х годов

К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. Ряд систем, основанных на мэйнфрейм использовались технологии, такие как Систран, Логотипы, Ariane-G5 и Металл.[нужна цитата ]

В результате повышения доступности микрокомпьютеры существовал рынок систем машинного перевода более низкого уровня. Этим воспользовались многие компании в Европе, Японии и США. Системы также были представлены на рынке Китая, Восточной Европы, Кореи и Китая. Советский союз.[нужна цитата ]

В 80-е годы МП особенно активно развивались в Японии. С компьютер пятого поколения Япония намеревалась опередить своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались вовлечены многие крупные японские производители электроники, было создание программного обеспечения для перевода на английский язык и с английского языка (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).[нужна цитата ]

Исследования в течение 1980-х годов обычно основывались на переводе с помощью некоторого разнообразия промежуточных лингвистических представлений, включая морфологический, синтаксический и семантический анализ.[нужна цитата ]

В конце 80-х годов прошлого века появилось множество новых методов машинного перевода. Одна система была разработана в IBM это было основано на Статистические методы. Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, метод, который теперь называется машинный перевод на основе примеров.[14][15] Определяющей чертой обоих этих подходов было пренебрежение синтаксическими и семантическими правилами и использование вместо этого манипулирования большим текстом. корпус.

В 1990-е годы воодушевленные успехами в распознавание речи и синтез речи, исследования в области речевого перевода начались с развитием немецкого Вербмобиль проект.

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Армейская исследовательская лаборатория, был направлен в 1997 году для перевода документов для солдат в Боснии.[16]

Значительный рост использования машинного перевода произошел в результате появления более дешевых и более мощных компьютеров. Это было в начале 1990-х, когда машинный перевод начал отказываться от больших мэйнфреймы к персональным компьютерам и рабочие станции. Две компании, которые какое-то время лидировали на рынке ПК, - это Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 г.) оказалось в интересах обеих компаний. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. В Интернете также стали доступны такие сайты, как AltaVista с Вавилонская рыба (с использованием технологии Systran) и Google Языковые инструменты (также изначально с использованием исключительно технологии Systran).

2000-е

За последние несколько лет в области машинного перевода произошли серьезные изменения. В настоящее время проводится большое количество исследований статистический машинный перевод и машинный перевод на основе примеров. В области перевода речи исследования были сосредоточены на переходе от систем с ограничением по предметной области к системам с неограниченным доменом. В различных исследовательских проектах в Европе (например, TC-STAR)[17] и в США (STR-DUST и US-DARPA-GALE),[18] разработаны решения для автоматического перевода парламентских выступлений и новостей. В этих сценариях область содержания больше не ограничивается какой-либо определенной областью, а речи, которые нужно переводить, охватывают множество тем. Совсем недавно французско-немецкий проект Quaero исследует возможность использования машинного перевода для многоязычного Интернета. Проект направлен на перевод не только веб-страниц, но также видео и аудиофайлов в Интернете.

Сегодня лишь несколько компаний используют статистический машинный перевод в коммерческих целях, например Omniscien Technologies (ранее Азия в Интернете),[нужна цитата ] SDL / Язык Weaver (продает переводческие продукты и услуги),[нужна цитата ] Google (использует собственную статистическую систему машинного перевода для некоторых языковых комбинаций в языковых инструментах Google),[19] Microsoft (использует собственную статистическую систему машинного перевода для перевода статей из базы знаний),[нужна цитата ] и Ta with you (предлагает специализированное решение для машинного перевода на основе статистического машинного перевода с некоторыми лингвистическими знаниями).[нужна цитата ] Возродился интерес к гибридизации, когда исследователи объединяют синтаксические и морфологические (то есть лингвистические) знания в статистические системы, а также объединяют статистику с существующими системами, основанными на правилах.[нужна цитата ]

Смотрите также

Примечания

  1. ^ Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общий язык». Дистилляции. 2 (1): 40–43. Получено 22 марта 2018.
  2. ^ Гордин, Майкл Д. (2015). Вавилон науки: как делалась наука до и после Global English. Чикаго, Иллинойс: Издательство Чикагского университета. ISBN  9780226000299.
  3. ^ а б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF).[самостоятельно опубликованный источник ]
  4. ^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Ограничения машинного перевода (Тезис). Копенгагенский университет. п. 11.
  5. ^ Мелби, Алан К. (1995). Возможность языка. Амстердам: Дж. Бенджаминс. С. 27–41. ISBN  9027216142.
  6. ^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода». T&I Business. Архивировано из оригинал 16 июля 2012 г.
  7. ^ «Приложение III к» Текущее состояние автоматического перевода языков'" (PDF). Достижения в области компьютеров. 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация. Массачусетс: Эддисон-Уэсли. С. 174–179.
  8. ^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера». Современный (8).
  9. ^ 浜 口, 稔 (30 апреля 1993 г.). 英 仏 普遍 言語 計画.工作 舎. С. 70–71. ISBN  978-4-87502-214-5. 普遍 的 文字の 構築 と い う 初期 の 試 み に 言及 す る と き は 1629 年 11 月 に デ カ ル ト が メ ル セ ン ヌ に 宛 て た 手紙 か ら 始 ま る, と い う の が 通 り 相 場 と な っ て い る. し か し, こ の 問題 へ の 関心 を 最初 に 誘 発 し た 多 く の 要 因を 吟味 し て み る と 、 あ 共通 の 書 字 と い う 構想 、 ず っ 的 的 な じ み い に に学問 の 進 歩 に つ い ての な か で 、 そ の よ 真正 の 文字 の 体系 は 便利 で あ る と 述 い たпереведено с
    Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800.
  10. ^ 別 所, 照 彦;棚 橋, 善 照 (15 октября 1960 г.). «翻 訳». В 玉 木, 英 彦;喜 安, 善 市 (ред.). 自動 翻 訳 デ ・ ユ ・ パ ノ フ 著 (на японском языке) (1-е изд.). Токио: (株) み す ず 書房. С. 10–11. 翻 訳 の あ る 程度 の 機械化 は 1933 年 に ペ ・ ペ ・ ト ロ ヤ ン ー が 企 て た の が お く 最初 で あ ろ ​​う。 「選 別 し か つ 印刷 す 機械 」を る こ と を 提案 し た の 明 で ペ ・ ペ ・ ヤ ス キ ー は 特許 っ た Переводчик Google ): Возможно, это первый случай, когда машинный перевод Петр Петрович Троянский пытался в 1933 году. Он представил, что «критиковать машину, которая выбирает слова и печатает их при переводе с языка на другой язык или на несколько языков одновременно». Он получил патент на это изобретение, но реализовать его на тот момент не удалось.)
  11. ^ 別 所, 照 彦;沢 辺, 弘 (25 февраля 1964). 翻 訳 機械 (文庫 ク セ ジ ュ 現代 知識 の 焦点) (на японском языке) (1-е изд.). Токио: (株) 白水 社. п. 39. モ ス ク ワ で 1933 年 に 特許 を と シ ア 人 ス ミ ル フ ・ ロ ヤ ン ス キ ー 発 、 同時 に い く の Переводчик Google ): Изобретение запатентовано Петр Петрович Троянский в 1933 году казалось, что он может переводить на несколько языков одновременно и отправлять их куда-то далеко.), переведено с
    Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (На французском). Прессы Universitaires de France.
  12. ^ «Меморандум Уивера». Март 1949 года. Архивировано с оригинал 5 октября 2006 г.
  13. ^ "ПРОЦЕСС ЗАКУПОК". Канадский международный торговый трибунал. 30 июля 2002 г. Архивировано с оригинал 6 июля 2011 г.. Получено 10 февраля 2007.
  14. ^ Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF). Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту. Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN  0-444-86545-4.
  15. ^ "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award". Ассоциация компьютерной лингвистики. Архивировано из оригинал 12 июня 2010 г.. Получено 10 марта 2010.
  16. ^ Уайт, Джон С. (31 июля 2003 г.). Взгляд на машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы. Springer. ISBN  9783540399650.
  17. ^ «ТС-Стар». Получено 25 октября 2010.
  18. ^ "США-ДАРПА-ГЕЙЛ". Архивировано из оригинал 11 ноября 2010 г.. Получено 25 октября 2010.
  19. ^ «Google переходит на собственную систему перевода». 22 октября 2007 г.. Получено 12 февраля 2018.

Рекомендации

дальнейшее чтение