Автоматический переводчик языков - Automatic Language Translator
IBM с Автоматический переводчик языков был машинный перевод система, которая преобразовала русский документы в английский. Он использовал оптический диск в котором хранилось 170 000 дословных и индивидуальных переводов, а также специальный компьютер для их быстрого поиска. Создан для ВВС США Подразделение зарубежных технологий AN / GSQ-16 (или же XW-2), как это было известно в ВВС, в основном использовалась для преобразования советских технических документов для распространения среди западных ученых. Переводчик был установлен в 1959 году, значительно модернизирован в 1964 году и в конечном итоге заменен на переводчик. мэйнфрейм Бег SYSTRAN в 1970 г.
История
Фотографиикопический магазин
Переводчик начал работу в июне 1953 г. по контракту с ВМС США к Международная телеметрическая корпорация (ITC) Лос-Анджелеса. Это было не для системы перевода, а чисто контракт на исследования и разработку высокопроизводительного онлайн-хранилища фотографий, состоящего из маленьких черных прямоугольников, встроенных в пластиковый диск. Когда истек первоначальный контракт, то, что было тогда Римский центр развития воздуха (RADC) продолжила финансирование в 1954 году и позже.[1]
Система была разработана Гилбертом Кингом, главным инженером ITC, вместе с командой, в которую входили Луи Риденур. Он превратился в 16-дюймовый пластиковый диск с данными, записанными в виде серии микроскопических черных прямоугольников или прозрачных пятен. Только крайние 4 дюйма диска использовались для хранения, что увеличивало линейную скорость доступной части. Когда диск вращался со скоростью 2400 об / мин, он имел скорость доступа около 1 Мбит / сек. В общей сложности система хранит 30 Мбит, что делает ее онлайн-системой с самой высокой плотностью записи в свое время.[1][1]
Марк I
В 1954 году IBM провела впечатляющую демонстрацию машинного перевода, известную сегодня как "Джорджтаун-IBM эксперимент ". Запустить IBM 704 мэйнфрейм, система перевода знала всего 250 слов русского языка, ограниченного областью органической химии, и всего 6 грамматических правил их объединения. Тем не менее, результаты были очень многообещающими, и о них широко сообщалось в прессе.[2]
В то время большинство исследователей в области зарождающегося машинного перевода считали, что основной проблемой при обеспечении разумных переводов было создание большой библиотеки, поскольку устройства хранения того времени были слишком маленькими и слишком медленными, чтобы их можно было использовать в этой роли.[3] Кинг считал, что фотомагазин является естественным решением проблемы, и предложил ВВС идею автоматизированной системы перевода на основе фотомагазина. RADC проявил интерес и предоставил исследовательский грант в мае 1956 года. В то время ВВС также предоставили грант исследователям из Вашингтонский университет которые работали над проблемой создания оптимального словаря перевода для проекта.
Кинг выступал за простой дословный подход к переводам. Он думал, что естественная избыточность в языке позволит понять даже плохой перевод, и что одного местного контекста было достаточно, чтобы дать разумные предположения при столкновении с двусмысленными терминами. Он заявил, что «успех человека в достижении вероятности 0,5 в ожидании слов в предложении во многом обусловлен его опытом и реальным значением уже обнаруженных слов».[4] Другими словами, простой перевод одних слов позволит человеку эффективно прочитать документ, потому что он сможет понять правильное значение из контекста, предоставленного более ранними словами.
В 1958 году Кинг перешел в IBM. Исследовательский центр Томаса Дж. Уотсона, и продолжалась разработка переводчика на базе фотоальбома. Со временем Кинг изменил подход с чистого дословного переводчика на тот, который хранит «основы и окончания», разбивая слова на части, которые можно было объединить вместе, чтобы снова сформировать законченные слова.[4]
Первая машина, «Mark I», была продемонстрирована в июле 1959 года и состояла из словаря на 65 000 слов и специального лампового компьютера для поиска.[3] Тексты были скопированы вручную на перфокарты используя пользовательские терминалы с кириллицей, а затем ввести в машину для перевода. Результаты были менее чем впечатляющими, но их было достаточно, чтобы предположить, что более крупная и быстрая машина была бы разумной разработкой. Тем временем марка I наносилась на переводы советской газеты, Правда. Результаты оставались сомнительными, но Кинг объявил его успешным, заявив в Scientific American что система была «... признана Правительством весьма полезной при оперативной оценке».[3]
Марк II
4 октября 1957 г. СССР запущен Спутник 1, первый искусственный спутник Земли. Это вызвало волну беспокойства в США, чьи собственные Проект Авангард был застигнут врасплох, а затем доказал, что неоднократно зрелищно проваливался. Этот неловкий поворот событий привел к огромным инвестициям в науку и технологии США, включая создание DARPA, НАСА и различные разведывательные мероприятия, которые попытаются снова избежать удивления таким образом.
Спустя короткое время усилия разведки сосредоточились в База ВВС Райт Паттерсон как Подразделение иностранных технологий (FTD, теперь известное как Национальный центр воздушной и космической разведки ), управляемый ВВС с участием DIA и другие организации. FTD было поручено перевести советские и другие Варшавский блок технические и научные журналы, чтобы исследователи на "западе" могли быть в курсе событий, стоящих за Железный занавес. Большинство этих документов были общедоступными, но FTD также сделала несколько разовых переводов других материалов по запросу.
Допуская нехватку квалифицированных переводчиков, FTD чрезвычайно заинтересовалась усилиями Кинга в IBM. Вскоре появилось финансирование для модернизированной машины, и началась работа над системой «Mark II», основанной на транзисторном компьютере с более быстрым и емким 10-дюймовым оптическим диском на стеклянной основе, вращающимся со скоростью 2400 об / мин. Еще одним дополнением было оптический считыватель символов предоставленный третьей стороной, которая, как они надеялись, устранит трудоемкий процесс копирования русского текста на машиночитаемые карточки.[3]
В 1960 году команда из Вашингтона также присоединилась к IBM, взяв с собой свои словарные разработки. Словарь продолжал расширяться по мере появления дополнительного хранилища, достигнув 170 000 слов и терминов к моменту его установки в FTD. В Mark II было также включено крупное обновление программного обеспечения, которое Кинг назвал «набивкой словарей». Набивка была попыткой справиться с проблемами неоднозначных слов путем "вставки" в них префиксов из более ранних слов в тексте.[3] Эти измененные слова будут совпадать с аналогичными словами в словаре, уменьшая количество ложных срабатываний.
В 1962 году Кинг покинул IBM, чтобы Itek, военный подрядчик, стремительно осваивающий новые технологии. Разработка в IBM продолжалась, и в феврале 1964 года система была полностью запущена в FTD. Система была продемонстрирована на выставке 1964 Нью-Йоркская всемирная выставка. Версия, представленная на Ярмарке, включала словарь на 150 000 слов, где примерно 1/3 слов состояла из фраз. Около 3500 из них хранились в основная память для повышения производительности, и была заявлена средняя скорость 20 слов в минуту. Результаты тщательно подобранного ввода текста были весьма впечатляющими.[5] После возвращения в FTD он использовался постоянно до 1970 года, когда его заменили работающей машиной SYSTRAN.[6]
Отчет ALPAC
В 1964 г. Министерство обороны США заказал Национальная академия наук США (NAS) для подготовки отчета о состоянии машинного перевода. NAS сформировал «Консультативный комитет по автоматической обработке языков», или ALPAC и опубликовали свои результаты в 1966 году. Язык и машины: компьютеры в переводе и лингвистике, был очень критичен по отношению к существующим усилиям, демонстрируя, что системы не быстрее, чем переводы, выполняемые человеком, а также демонстрировал, что предполагаемая нехватка переводчиков на самом деле была излишком, и в результате спрос и предложение выпусков, человеческий перевод был относительно недорогим - около 6 долларов за 1000 слов. Хуже того, FTD тоже был медленнее; тесты с использованием работ по физике в качестве входных данных показали, что переводчик был «на 10 процентов менее точным, на 21 процент медленнее и имел уровень понимания на 29 процентов ниже, чем когда он использовал человеческий перевод».[7]
Отчет ALPAC имел такое же влияние, как и эксперимент в Джорджтауне десятью годами ранее; сразу после его публикации правительство США приостановило почти все финансирование исследований в области машинного перевода.[8] Текущая работа в IBM и Itek закончилась к 1966 году, оставив поле деятельности европейцам, которые продолжили разработку таких систем, как SYSTRAN и Logos.
Рекомендации
Примечания
^^ Эти цифры для ранних дисковых систем кажутся неточными - другой документ от того же автора предполагает, что эти цифры на самом деле относятся к более поздней версии, используемой в переводчике Mark II.
Библиография
- G.W. Кинг, Г. Браун и Л. Риденур, "Фотографические методы хранения информации", Труды IRE, Volume 41 Issue 10 (October 1953), pp. 1421–1428.
- G.W. Кинг, "Стохастические методы механического перевода", Механический перевод, Volume 3 Issue 2 (1956), стр. 38–39
- J.L. Craft, E.H. Гольдман, У. Стром, «Табличная поисковая машина для обработки естественных языков», Журнал IBM, Июль 1961 г., стр. 192–203.
- Консультативный комитет по обработке языков, «Язык и машины: компьютеры в переводе и лингвистике», Национальный исследовательский совет, 1966 (широко известный как «Отчет ALPAC»)
- Джон Хатчинс (редактор), "Гилберт В. Кинг и переводчик IBM-USAF", Первые годы машинного перевода, Джон Бенджаминс, 2000, ISBN 90-272-4586-Х (RADC-TDR-62-105)
- Чарльз Борн и Труди Беллардо Хан, «История информационных служб Интернета, 1963–1976», MIT Press, 2003 г., ISBN 0-262-02538-8