История машинного перевода - History of machine translation

Машинный перевод является подполе компьютерная лингвистика который исследует использование программного обеспечения для перевода текста или речи с одного естественного языка на другой.

В 1950-х годах машинный перевод стал реальностью в исследованиях, хотя ссылки на эту тему можно найти уже в 17 веке. В Джорджтаунский эксперимент, который включал в себя успешный полностью автоматический перевод более шестидесяти русских предложений на английский в 1954 году, был одним из самых ранних записанных проектов.^[1]^[2] Исследователи Джорджтаунского эксперимента подтвердили свою веру в то, что машинный перевод станет решаемой проблемой в течение трех-пяти лет.^[3] Вскоре после этого в Советском Союзе были проведены аналогичные эксперименты.^[4] Следовательно, успех эксперимента положил начало эре значительного финансирования исследований машинного перевода в Соединенных Штатах. Достигнутый прогресс был намного медленнее, чем ожидалось; в 1966 г. Отчет ALPAC обнаружил, что десять лет исследований не оправдали ожиданий эксперимента в Джорджтауне и привели к резкому сокращению финансирования.^{[нужна цитата ]}.

Интерес вырос в статистические модели для машинного перевода, который стал более распространенным и менее дорогим в 1980-х годах по мере увеличения доступной вычислительной мощности.

Хотя не существует автономной системы «полностью автоматического высококачественного перевода неограниченного текста»,^[5]^[6]^[7] Сейчас доступно множество программ, способных обеспечить полезный вывод в строгих ограничениях. Некоторые из этих программ доступны в Интернете, например переводчик Google и SYSTRAN система, на которой работает AltaVista BabelFish (теперь Yahoo's Babelfish по состоянию на 9 мая 2008 г.).

Начало

Истоки машинного перевода восходят к работе Аль-Кинди, арабский 9-го века криптограф кто разработал методы системного языкового перевода, в том числе криптоанализ, частотный анализ, и вероятность и статистика, которые используются в современном машинном переводе.^[8] Идея машинного перевода появилась позже в 17 веке. В 1629 г. Рене Декарт предложил универсальный язык с эквивалентными идеями на разных языках, разделяющими один символ.^[9]

В середине 1930-х годов Жорж Арцруни подал заявку на первые патенты на «машины-переводчики» на автоматический двуязычный словарь, использующий бумажная лента. русский Петр Троянский представил более подробное предложение^[10]^[11] который включал в себя как двуязычный словарь, так и метод работы с грамматическими ролями между языками, основанный на грамматической системе эсперанто. Эта система была разделена на три этапа: первый этап состоял из редактора-носителя языка исходного языка, который организовывал слова в их логические формы и выполнять синтаксические функции; на втором этапе машина должна «перевести» эти формы на целевой язык; и на третьем этапе для нормализации этого вывода требовался редактор с родным языком на целевом языке. Предложение Троянского оставалось неизвестным до конца 1950-х годов, когда компьютеры были широко известны и широко использовались.

Ранние годы

Первый набор предложений по машинному переводу на базе компьютера был представлен в 1949 г. Уоррен Уивер, научный сотрудник Фонд Рокфеллера, "Меморандум о переводе ".^[12] Эти предложения основывались на теория информации, успехи в взлом кода вовремя Вторая мировая война, и теории об универсальных принципах, лежащих в основе естественный язык.

Спустя несколько лет после того, как Уивер представил свои предложения, во многих университетах Соединенных Штатов начались серьезные исследования. 7 января 1954 г. Джорджтаун-IBM эксперимент прошел в Нью-Йорке в головном офисе IBM. Это была первая публичная демонстрация системы машинного перевода. Демонстрация широко освещалась в газетах и вызвала общественный интерес. Однако сама система была не более чем «игрушечной» системой. В нем было всего 250 слов и 49 тщательно отобранных русских предложений были переведены на английский язык - в основном в области химия. Тем не менее, он поддержал идею о неизбежности машинного перевода и стимулировал финансирование исследований не только в США, но и во всем мире.^[3]

Ранние системы использовали большие двуязычные словари и закодированные вручную правила для фиксации порядка слов в окончательном результате, что в конечном итоге считалось слишком ограничивающим в лингвистических разработках в то время. Например, генеративная лингвистика и трансформационная грамматика были использованы для улучшения качества переводов. В этот период были установлены операционные системы. В ВВС США использовал систему, произведенную IBM и Вашингтонский университет, в то время как Комиссия по атомной энергии и Евратом в Италии использовала систему, разработанную в Джорджтаунский университет. Несмотря на то, что качество продукции было низким, оно отвечало многим потребностям клиентов, особенно в отношении скорости.^{[нужна цитата ]}

В конце 1950-х гг. Иегошуа Бар-Гилель Правительство США попросило изучить машинный перевод, чтобы оценить возможность полностью автоматического машинного перевода высокого качества. Бар-Гиллель описал проблему семантической двусмысленности или двусмысленности, как показано в следующем предложении:

Маленький Джон искал свой ящик с игрушками. Наконец он нашел это. Коробка была в ручке.

Слово ручка может иметь два значения: первое значение, то, что используется для письма чернилами; второе значение - какой-то контейнер. Для человека смысл очевиден, но Бар-Гиллель утверждал, что без «универсальной энциклопедии» машина никогда не сможет справиться с этой проблемой. В то время эту семантическую неоднозначность можно было решить только путем написания исходных текстов для машинного перевода в контролируемый язык который использует словарный запас в котором каждое слово имеет ровно одно значение.^{[нужна цитата ]}

1960-е, отчет ALPAC и семидесятые годы

Исследования 1960-х гг. Советский союз а Соединенные Штаты сконцентрировались в основном на языковой паре русский – английский. Объектами перевода были в основном научно-технические документы, например статьи из научные журналы. Сделанных черновых переводов было достаточно, чтобы получить общее представление о статьях. Если в статье обсуждалась тема, считающаяся конфиденциальной, ее отправляли переводчику-человеку для полного перевода; в противном случае его выбросили.

Большой удар был нанесен исследованиям машинного перевода в 1966 году с публикацией Отчет ALPAC. Отчет подготовлен по заказу правительства США и представлен ALPAC, Консультативный комитет по автоматической обработке языка, группа из семи ученых, созванная правительством США в 1964 году. Правительство США было обеспокоено отсутствием прогресса, несмотря на значительные расходы. В отчете был сделан вывод о том, что машинный перевод был более дорогим, менее точным и медленным, чем перевод, выполняемый человеком, и что, несмотря на затраты, машинный перевод вряд ли в ближайшем будущем достигнет качества переводчика-человека.

В отчете, однако, рекомендовалось разработать инструменты для помощи переводчикам - например, автоматические словари - и продолжить поддержку некоторых исследований в области компьютерной лингвистики.

Публикация отчета оказала глубокое влияние на исследования машинного перевода в Соединенных Штатах, и в меньшей степени на Советский союз и Соединенное Королевство. Исследования, по крайней мере, в США, были почти полностью заброшены на более чем десятилетие. Однако в Канаде, Франции и Германии исследования продолжались. В США основным исключением были основатели Systran (Питер Тома ) и Логотипы (Бернард Скотт), которые основали свои компании в 1968 и 1970 годах соответственно и служили Министерству обороны США. В 1970 г. Систран система была установлена для ВВС США, а затем Комиссия Европейских Сообществ в 1976 г. Система МЕТЕО, разработанный в Université de Montréal, была установлена в Канаде в 1977 году для перевода прогнозов погоды с английского на французский и переводила около 80 000 слов в день или 30 миллионов слов в год, пока 30 сентября 2001 г. не была заменена системой конкурентов.^[13]

В то время как исследования 1960-х годов были сосредоточены на ограниченном количестве языковых пар и вводимых данных, в 1970-х годах спрос был на недорогие системы, которые могли бы переводить ряд технических и коммерческих документов. Этот спрос был вызван увеличением глобализация и спрос на перевод в Канаде, Европе и Японии.^{[нужна цитата ]}

1980-е и начало 1990-х годов

К 1980-м годам увеличилось как разнообразие, так и количество установленных систем машинного перевода. Ряд систем, основанных на мэйнфрейм использовались технологии, такие как Систран, Логотипы, Ariane-G5 и Металл.^{[нужна цитата ]}

В результате повышения доступности микрокомпьютеры существовал рынок систем машинного перевода более низкого уровня. Этим воспользовались многие компании в Европе, Японии и США. Системы также были представлены на рынке Китая, Восточной Европы, Кореи и Китая. Советский союз.^{[нужна цитата ]}

В 80-е годы МП особенно активно развивались в Японии. С компьютер пятого поколения Япония намеревалась опередить своих конкурентов в области компьютерного оборудования и программного обеспечения, и одним из проектов, в котором оказались вовлечены многие крупные японские производители электроники, было создание программного обеспечения для перевода на английский язык и с английского языка (Fujitsu, Toshiba, NTT, Brother, Catena, Matsushita, Mitsubishi, Sharp, Sanyo, Hitachi, NEC, Panasonic, Kodensha, Nova, Oki).^{[нужна цитата ]}

Исследования в течение 1980-х годов обычно основывались на переводе с помощью некоторого разнообразия промежуточных лингвистических представлений, включая морфологический, синтаксический и семантический анализ.^{[нужна цитата ]}

В конце 80-х годов прошлого века появилось множество новых методов машинного перевода. Одна система была разработана в IBM это было основано на Статистические методы. Макото Нагао и его группа использовали методы, основанные на большом количестве примеров перевода, метод, который теперь называется машинный перевод на основе примеров.^[14]^[15] Определяющей чертой обоих этих подходов было пренебрежение синтаксическими и семантическими правилами и использование вместо этого манипулирования большим текстом. корпус.

В 1990-е годы воодушевленные успехами в распознавание речи и синтез речи, исследования в области речевого перевода начались с развитием немецкого Вербмобиль проект.

Система Forward Area Language Converter (FALCon), технология машинного перевода, разработанная Армейская исследовательская лаборатория, был направлен в 1997 году для перевода документов для солдат в Боснии.^[16]

Значительный рост использования машинного перевода произошел в результате появления более дешевых и более мощных компьютеров. Это было в начале 1990-х, когда машинный перевод начал отказываться от больших мэйнфреймы к персональным компьютерам и рабочие станции. Две компании, которые какое-то время лидировали на рынке ПК, - это Globalink и MicroTac, после чего слияние двух компаний (в декабре 1994 г.) оказалось в интересах обеих компаний. Примерно в это же время Intergraph и Systran также начали предлагать версии для ПК. В Интернете также стали доступны такие сайты, как AltaVista с Вавилонская рыба (с использованием технологии Systran) и Google Языковые инструменты (также изначально с использованием исключительно технологии Systran).

2000-е

За последние несколько лет в области машинного перевода произошли серьезные изменения. В настоящее время проводится большое количество исследований статистический машинный перевод и машинный перевод на основе примеров. В области перевода речи исследования были сосредоточены на переходе от систем с ограничением по предметной области к системам с неограниченным доменом. В различных исследовательских проектах в Европе (например, TC-STAR)^[17] и в США (STR-DUST и US-DARPA-GALE),^[18] разработаны решения для автоматического перевода парламентских выступлений и новостей. В этих сценариях область содержания больше не ограничивается какой-либо определенной областью, а речи, которые нужно переводить, охватывают множество тем. Совсем недавно французско-немецкий проект Quaero исследует возможность использования машинного перевода для многоязычного Интернета. Проект направлен на перевод не только веб-страниц, но также видео и аудиофайлов в Интернете.

Сегодня лишь несколько компаний используют статистический машинный перевод в коммерческих целях, например Omniscien Technologies (ранее Азия в Интернете),^{[нужна цитата ]} SDL / Язык Weaver (продает переводческие продукты и услуги),^{[нужна цитата ]} Google (использует собственную статистическую систему машинного перевода для некоторых языковых комбинаций в языковых инструментах Google),^[19] Microsoft (использует собственную статистическую систему машинного перевода для перевода статей из базы знаний),^{[нужна цитата ]} и Ta with you (предлагает специализированное решение для машинного перевода на основе статистического машинного перевода с некоторыми лингвистическими знаниями).^{[нужна цитата ]} Возродился интерес к гибридизации, когда исследователи объединяют синтаксические и морфологические (то есть лингвистические) знания в статистические системы, а также объединяют статистику с существующими системами, основанными на правилах.^{[нужна цитата ]}

Смотрите также

Примечания

^ Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общий язык». Дистилляции. 2 (1): 40–43. Получено 22 марта 2018.
^ Гордин, Майкл Д. (2015). Вавилон науки: как делалась наука до и после Global English. Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.
^ ^а ^б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF).^{[самостоятельно опубликованный источник ]}
^ Мэдсен, Матиас Винтер (23 декабря 2009 г.). Ограничения машинного перевода (Тезис). Копенгагенский университет. п. 11.
^ Мелби, Алан К. (1995). Возможность языка. Амстердам: Дж. Бенджаминс. С. 27–41. ISBN 9027216142.
^ Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода». T&I Business. Архивировано из оригинал 16 июля 2012 г.
^ «Приложение III к» Текущее состояние автоматического перевода языков'" (PDF). Достижения в области компьютеров. 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация. Массачусетс: Эддисон-Уэсли. С. 174–179.
^ Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера». Современный (8).
^ 浜口, 稔 (30 апреля 1993 г.). 英仏普遍言語計画.工作舎. С. 70–71. ISBN 978-4-87502-214-5. 普遍的文字の構築という初期の試みに言及するときは 1629 年 11 月にデカルトがメルセンヌに宛てた手紙から始まる, というのが通り相場となっている. しかし, この問題への関心を最初に誘発した多くの要因を吟味してみると、あ共通の書字という構想、ずっ的的なじみいにに学問の進歩についてのなかで、そのよ真正の文字の体系は便利であると述いたпереведено с
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800.
^ 別所, 照彦;棚橋, 善照 (15 октября 1960 г.). «翻訳». В 玉木, 英彦;喜安, 善市 (ред.). 自動翻訳デ・ユ・パノフ著 (на японском языке) (1-е изд.). Токио: （株）みすず書房. С. 10–11. 翻訳のある程度の機械化は 1933 年にペ・ペ・トロヤンーが企てたのがおく最初であろう。「選別しかつ印刷す機械」をることを提案したの明でペ・ペ・ヤスキーは特許った Переводчик Google ): Возможно, это первый случай, когда машинный перевод Петр Петрович Троянский пытался в 1933 году. Он представил, что «критиковать машину, которая выбирает слова и печатает их при переводе с языка на другой язык или на несколько языков одновременно». Он получил патент на это изобретение, но реализовать его на тот момент не удалось.)
^ 別所, 照彦;沢辺, 弘 (25 февраля 1964). 翻訳機械（文庫クセジュ現代知識の焦点） (на японском языке) (1-е изд.). Токио: （株）白水社. п. 39. モスクワで 1933 年に特許をとシア人スミルフ・ロヤンスキー発、同時にいくの Переводчик Google ): Изобретение запатентовано Петр Петрович Троянский в 1933 году казалось, что он может переводить на несколько языков одновременно и отправлять их куда-то далеко.), переведено с
Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (На французском). Прессы Universitaires de France.
^ «Меморандум Уивера». Март 1949 года. Архивировано с оригинал 5 октября 2006 г.
^ "ПРОЦЕСС ЗАКУПОК". Канадский международный торговый трибунал. 30 июля 2002 г. Архивировано с оригинал 6 июля 2011 г.. Получено 10 февраля 2007.
^ Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF). Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту. Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN 0-444-86545-4.
^ "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award". Ассоциация компьютерной лингвистики. Архивировано из оригинал 12 июня 2010 г.. Получено 10 марта 2010.
^ Уайт, Джон С. (31 июля 2003 г.). Взгляд на машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы. Springer. ISBN 9783540399650.
^ «ТС-Стар». Получено 25 октября 2010.
^ "США-ДАРПА-ГЕЙЛ". Архивировано из оригинал 11 ноября 2010 г.. Получено 25 октября 2010.
^ «Google переходит на собственную систему перевода». 22 октября 2007 г.. Получено 12 февраля 2018.

дальнейшее чтение

Хатчинс, У. Джон (1986). Машинный перевод: прошлое, настоящее, будущее. Серия Эллис Хорвуд в компьютерах и их приложениях. Чичестер: Эллис Хорвуд. ISBN 0470203137.

[Nye-1] Най, Мэри Джо (2016). «Говорить на языках: многовековая охота науки за общий язык». Дистилляции. 2 (1): 40–43. Получено 22 марта 2018.

[Babel-2] Гордин, Майкл Д. (2015). Вавилон науки: как делалась наука до и после Global English. Чикаго, Иллинойс: Издательство Чикагского университета. ISBN 9780226000299.

[nutshell-3] а ^б Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF).^{[самостоятельно опубликованный источник ]}

[4] Мэдсен, Матиас Винтер (23 декабря 2009 г.). Ограничения машинного перевода (Тезис). Копенгагенский университет. п. 11.

[5] Мелби, Алан К. (1995). Возможность языка. Амстердам: Дж. Бенджаминс. С. 27–41. ISBN 9027216142.

[6] Вутен, Адам (14 февраля 2006 г.). «Простая модель, описывающая технологию перевода». T&I Business. Архивировано из оригинал 16 июля 2012 г.

[7] «Приложение III к» Текущее состояние автоматического перевода языков'" (PDF). Достижения в области компьютеров. 1960. С. 158–163. Перепечатано в Я. Бар-Гиллель (1964). Язык и информация. Массачусетс: Эддисон-Уэсли. С. 174–179.

[8] Дюпон, Куинн (январь 2018 г.). «Криптологические истоки машинного перевода: от аль-Кинди до Уивера». Современный (8).

[9] 浜口, 稔 (30 апреля 1993 г.). 英仏普遍言語計画.工作舎. С. 70–71. ISBN 978-4-87502-214-5. 普遍的文字の構築という初期の試みに言及するときは 1629 年 11 月にデカルトがメルセンヌに宛てた手紙から始まる, というのが通り相場となっている. しかし, この問題への関心を最初に誘発した多くの要因を吟味してみると、あ共通の書字という構想、ずっ的的なじみいにに学問の進歩についてのなかで、そのよ真正の文字の体系は便利であると述いたпереведено с
Ноулсон, Джеймс (1975). УНИВЕРСАЛЬНЫЕ ЯЗЫКОВЫЕ СХЕМЫ В АНГЛИИ И ФРАНЦИИ 1600-1800.

[10] 別所, 照彦;棚橋, 善照 (15 октября 1960 г.). «翻訳». В 玉木, 英彦;喜安, 善市 (ред.). 自動翻訳デ・ユ・パノフ著 (на японском языке) (1-е изд.). Токио: （株）みすず書房. С. 10–11. 翻訳のある程度の機械化は 1933 年にペ・ペ・トロヤンーが企てたのがおく最初であろう。「選別しかつ印刷す機械」をることを提案したの明でペ・ペ・ヤスキーは特許った Переводчик Google ): Возможно, это первый случай, когда машинный перевод Петр Петрович Троянский пытался в 1933 году. Он представил, что «критиковать машину, которая выбирает слова и печатает их при переводе с языка на другой язык или на несколько языков одновременно». Он получил патент на это изобретение, но реализовать его на тот момент не удалось.)

[11] 別所, 照彦;沢辺, 弘 (25 февраля 1964). 翻訳機械（文庫クセジュ現代知識の焦点） (на японском языке) (1-е изд.). Токио: （株）白水社. п. 39. モスクワで 1933 年に特許をとシア人スミルフ・ロヤンスキー発、同時にいくの Переводчик Google ): Изобретение запатентовано Петр Петрович Троянский в 1933 году казалось, что он может переводить на несколько языков одновременно и отправлять их куда-то далеко.), переведено с
Делавени, Эмиль. LA MACHINE A TRADUIRE (Коллекция QUE SAIS-JE? № 834) (На французском). Прессы Universitaires de France.

[12] «Меморандум Уивера». Март 1949 года. Архивировано с оригинал 5 октября 2006 г.

[13] "ПРОЦЕСС ЗАКУПОК". Канадский международный торговый трибунал. 30 июля 2002 г. Архивировано с оригинал 6 июля 2011 г.. Получено 10 февраля 2007.

[14] Нагао, Макото (1984). «Структура механического перевода между японским и английским языком по принципу аналогии» (PDF). Порядок проведения Международного симпозиума НАТО по искусственному и человеческому интеллекту. Нью-Йорк: Elsevier North-Holland, Inc., стр. 173–180. ISBN 0-444-86545-4.

[15] "Ассоциация компьютерной лингвистики - 2003 ACL Lifetime Achievement Award". Ассоциация компьютерной лингвистики. Архивировано из оригинал 12 июня 2010 г.. Получено 10 марта 2010.

[16] Уайт, Джон С. (31 июля 2003 г.). Взгляд на машинный перевод в информационном будущем: 4-я конференция Ассоциации машинного перевода в Северной и Южной Америке, AMTA 2000, Куэрнавака, Мексика, 10-14 октября 2000 г. Материалы. Springer. ISBN 9783540399650.

[17] «ТС-Стар». Получено 25 октября 2010.

[18] "США-ДАРПА-ГЕЙЛ". Архивировано из оригинал 11 ноября 2010 г.. Получено 25 октября 2010.

[19] «Google переходит на собственную систему перевода». 22 октября 2007 г.. Получено 12 февраля 2018.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]