Персептроны (книга) - Perceptrons (book)
Автор | Марвин Мински, Сеймур Паперт |
---|---|
Дата публикации | 1969 |
ISBN | 0 262 13043 2 |
Персептроны: введение в вычислительную геометрию это книга, написанная Марвин Мински и Сеймур Паперт и опубликовано в 1969 году. Издание с рукописными исправлениями и дополнениями было выпущено в начале 1970-х годов. В 1987 году было опубликовано расширенное издание, содержащее главу, посвященную противодействию критике, высказанной в ее адрес в 1980-х годах.
Основная тема книги - перцептрон, тип искусственная нейронная сеть разработаны в конце 1950-х - начале 1960-х годов. Книга посвящена психологу. Фрэнк Розенблатт, который в 1957 году опубликовал первую модель «Персептрона».[1] Розенблатт и Мински знали друг друга с подросткового возраста, учились с разницей в год в Средняя школа наук Бронкса.[2] В какой-то момент они стали центральными фигурами дискуссии внутри исследовательского сообщества ИИ и, как известно, способствовали громким дискуссиям на конференциях, но оставались дружелюбными.[3]
Эта книга является центром давних споров в области изучения искусственный интеллект. Утверждается, что пессимистические прогнозы, сделанные авторами, привели к изменению направления исследований в области ИИ, сосредоточив усилия на так называемых «символических» системах, направление исследований, которое прекратилось и способствовало так называемому AI зима 1980-х годов, когда обещания AI не были реализованы.
Мясо Персептроны это ряд математические доказательства которые признают некоторые сильные стороны перцептронов, но при этом демонстрируют основные ограничения.[3] Самый важный из них связан с вычислением некоторых предикатов, таких как функция XOR, а также важного предиката связности. Проблема связности проиллюстрирована на неловко окрашенный обложка книги, призванная показать, как люди сами испытывают трудности с вычислением этого предиката.[4]
Фон
В перцептрон это нейронная сеть разработан психологом Фрэнк Розенблатт в 1958 году и является одной из самых известных машин своего периода.[5][6] В 1960 году Розенблатт и его коллеги смогли показать, что перцептрон может за конечное количество тренировочных циклов изучить любую задачу, которую могут воплотить его параметры. Теорема о сходимости перцептрона доказана для однослойных нейронных сетей.[6]
В этот период исследования нейронных сетей были основным подходом к проблеме мозга и машины, которым воспользовалось значительное количество людей.[6] В сообщениях New York Times и заявлениях Розенблатта утверждалось, что нейронные сети скоро смогут видеть изображения, победить людей в шахматы, и воспроизвести.[3] В то же время новые подходы, в том числе символический ИИ появился.[7] Различные группы оказались в конкурентной борьбе за финансирование и людей, и их спрос на вычислительные мощности намного превышал доступное предложение.[8]
Содержание
Персептроны: введение в вычислительную геометрию представляет собой книгу из тринадцати глав, сгруппированных в три раздела. В главах 1–10 представлена теория персептронов авторов в виде доказательств, в главе 11 рассматривается обучение, в главе 12 рассматриваются проблемы линейного разделения, а в главе 13 обсуждаются некоторые мысли авторов о простых и многослойных перцептронах и распознавании образов.[9][10]
Определение перцептрона
Мински и Паперт взяли в качестве своего предмета абстрактные версии класса обучающих устройств, которые они назвали перцептронами, «в знак признания новаторской работы Фрэнка Розенблатта».[10] Эти перцептроны были модифицированными формами перцептронов, введенных Розенблаттом в 1958 году. Они состояли из сетчатки глаза, одного уровня входных функций и одного выходного.[9][6]
Помимо этого, авторы ограничили «порядок» или максимальное количество входящих соединений своих перцептронов. Социолог Микель Олазаран объясняет, что Мински и Паперт «утверждали, что интерес к нейронным вычислениям вызван тем фактом, что это была параллельная комбинация местный информация », которая для того, чтобы быть эффективной, должна была быть простым вычислением. Для авторов это означало, что« каждая ассоциативная единица могла принимать соединения только из небольшой части входной области ».[6] Минский и Паперт назвали это понятие «конъюнктивная локальность».[10]
Четность и связанность
Два основных примера, проанализированных авторами, - это четность и связность. Четность включает определение того, является ли количество активированных входов на входной сетчатке четным или нечетным, а связность относится к проблема фигуры и фона. Мински и Паперт доказали, что однослойный перцептрон не может вычислять четность в условиях конъюнктивной локальности, и показали, что порядок, необходимый перцептрону для вычисления связности, становится непрактично большим.[11][10]
Дело XOR
Некоторые критики книги заявляют, что авторы подразумевают, что, поскольку отдельный искусственный нейрон неспособен выполнять некоторые функции, такие как XOR логическая функция, более крупные сети также имеют аналогичные ограничения, и поэтому от них следует отказаться. Исследования трехслойных перцептронов показали, как реализовать такие функции. Розенблатт в своей книге доказал, что элементарный перцептрон с априори неограниченным количеством А-элементов (нейронов) скрытого слоя и одним выходным нейроном может решить любую задачу классификации. (Теорема существования.[12]) Мински и Паперт использовали перцептроны с ограниченным числом входов А-элементов скрытого слоя и условием локальности: каждый элемент скрытого слоя получает входные сигналы от маленького круга. Эти ограниченные перцептроны не могут определить, является ли изображение связанной фигурой или равно количеству пикселей в изображении (предикат четности).
В этой истории много ошибок. Хотя на самом деле отдельный нейрон может вычислять лишь небольшое количество логических предикатов, было широко известно, что сети таких элементов могут вычислять любые возможные логическая функция. Это было известно Уоррен МакКаллох и Уолтер Питтс, который даже предложил, как создать Машина Тьюринга с их формальными нейронами, упоминается в книге Розенблатта и даже упоминается в книге Персептроны.[13] Минский также широко использует формальные нейроны для создания простых теоретических компьютеров в своей книге. Вычисления: конечные и бесконечные машины.
Книга действительно доказывает, что в трехуровневых перцептронах с прямой связью (с так называемым «скрытым» или «промежуточным» слоем) невозможно вычислить некоторые предикаты, если хотя бы один из нейронов первого уровня нейронов («промежуточный» слой) связан с ненулевым весом для каждого входа. Это противоречило надежде некоторых исследователей полагаться в основном на сети с несколькими слоями «локальных» нейронов, каждый из которых подключен только к небольшому количеству входов. Машину прямой связи с «локальными» нейронами намного проще построить и использовать, чем большую, полностью связанную нейронную сеть, поэтому исследователи в то время сосредоточились на них, а не на более сложных моделях.
Некоторые другие критики, в первую очередь Джордан Поллак, отмечают, что то, что было небольшим доказательством того, что глобальная проблема (паритет), не обнаруживаемая локальными детекторами, было интерпретировано сообществом как довольно успешная попытка похоронить всю идею.[14]
Персептроны и распознавание образов
В последней главе авторы высказывают мысли о многослойных машинах и перцептронах гамба. Они предполагают, что гамба-машинам потребуется «огромное количество» гамба-масок и что многослойные нейронные сети являются «стерильным» расширением. Кроме того, они отмечают, что многие «невозможные» проблемы для перцептронов уже были решены другими методами.[10]
Прием и наследство
Персептроны получил ряд положительных отзывов за годы после публикации. В 1969 году профессор Стэнфорда Майкл А. Арбиб заявил: «[t] его книга была широко провозглашена новой захватывающей главой в теории распознавания образов».[15] Ранее в этом году CMU профессор Аллен Ньюэлл составил рецензию на книгу для Наука, открывая отрывок, заявляя: «Это великая книга».[16]
С другой стороны, H.D. Блок выразил обеспокоенность узким определением персептронов авторами. Он утверждал, что они «изучают строго ограниченный класс машин с точки зрения, совершенно чуждой Розенблатту», и поэтому название книги «серьезно вводит в заблуждение».[9] Современные исследователи нейронных сетей разделили некоторые из этих возражений: Бернард Видроу жаловался, что авторы слишком узко определили перцептроны, но также сказал, что доказательства Мински и Паперта были «в значительной степени неуместны», появившись на целое десятилетие после перцептрона Розенблатта.[11]
Персептроны часто считается, что это привело к упадку исследований нейронных сетей в 1970-х и начале 1980-х годов.[3][17] В течение этого периода исследователи нейронных сетей продолжали более мелкие проекты, выходящие за рамки мейнстрима, в то время как исследования символического ИИ переживали бурный рост.[18][3]
С возрождением коннекционизма в конце 80-х гг. PDP исследователь Дэвид Румелхарт и его коллеги вернулись в Персептроны. В отчете 1986 года они утверждали, что преодолели проблемы, представленные Мински и Папертом, и что «их пессимизм в отношении обучения на многослойных машинах был неуместен».[3]
Анализ противоречия
Очень поучительно узнать, что сами Мински и Паперт говорили в 1970-х годах о более широком значении их книги. На своем веб-сайте Харви Коэн,[19] исследователь из MIT AI Labs 1974+,[20] цитирует Мински и Паперта в отчете о проекте MAC 1971 года, адресованном финансирующим агентствам, о «сетях Гамба»:[21] «Практически ничего не известно о вычислительных возможностях этого последнего типа машин. Мы считаем, что он может сделать немного больше, чем перцептрон низкого порядка». На предыдущей странице Мински и Пейперт поясняют, что «сети Гамба» - это сети со скрытыми слоями.
Минский сравнил книгу с художественной книгой Некрономикон в Х. П. Лавкрафт сказки, книга известная многим, но читаемая лишь немногими.[22] В расширенном издании авторы говорят о критике книги, начатой в 1980-х годах, с новой волны исследований, символизируемой PDP книга.
Как Персептроны был исследован сначала одной группой ученых для продвижения исследований в области ИИ в одном направлении, а затем новой группой в другом направлении, был предметом социологического исследования развития науки.[3]
Примечания
- ^ Розенблатт, Франк (январь 1957). «Персептрон: воспринимающий и распознающий автомат (Проект PARA)» (PDF). Отчет (85-460-1). Cornell Aeronautical Laboratory, Inc., увековеченная в память Джо Патера, Brain Wars: как работает разум? И почему это так важно?, УмассАмхерст. Получено 29 декабря 2019. Цитировать журнал требует
| журнал =
(помощь); Внешняя ссылка в| publisher =
(помощь) - ^ Crevier 1993
- ^ а б c d е ж грамм Олазаран, Микель (1996). «Социологическое исследование официальной истории спора о персептронах». Общественные науки. 26 (3): 611–659. Дои:10.1177/030631296026003005. JSTOR 285702.CS1 maint: ref = harv (связь)
- ^ Minsky-Papert 1972: 74 показывает фигуры черным и белым. На обложке издания в мягкой обложке 1972 года они напечатаны пурпурным цветом на красном фоне, и это делает связь еще более трудной для распознавания без использования пальца или других средств для механического следования узорам. Эта проблема подробно обсуждается на стр.136ff и действительно включает отслеживание границы.
- ^ Розенблатт, Франк (1958). «Персептрон: вероятностная модель для хранения и организации информации в мозгу». Психологический обзор. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. Дои:10,1037 / ч0042519. PMID 13602029.
- ^ а б c d е Олазаран 1996, п. 618
- ^ Хогеланд, Джон (1985). Искусственный интеллект: сама идея. Кембридж, Массачусетс: MIT Press. ISBN 978-0-262-08153-5.
- ^ Хван, Тим (2018). «Вычислительная мощность и социальное влияние искусственного интеллекта». arXiv:1803.08971v1 [cs.AI ].
- ^ а б c Блок, Х. Д. (1970). "Обзор персептронов: введение в вычислительную геометрию"'". Информация и контроль. 17 (1): 501–522. Дои:10.1016 / S0019-9958 (70) 90409-2.
- ^ а б c d е Минский, Марвин; Паперт, Сеймур (1988). Персептроны: введение в вычислительную геометрию. MIT Press.
- ^ а б Олазаран 1996, п. 630
- ^ Теорема 1 в Розенблатте, Ф. (1961) Принципы нейродинамики: персептроны и теория мозговых механизмов, Spartan. Вашингтон, округ Колумбия.
- ^ Ср. Мински-Паперт (1972: 232): «... универсальный компьютер может быть построен полностью из линейных пороговых модулей. Это ни в коем случае не сводит теорию вычислений и программирования к теории перцептронов».
- ^ Поллак, Дж. Б. (1989). «Никакого вреда не предполагается: обзор расширенного издания перцептронов». Журнал математической психологии. 33 (3): 358–365. Дои:10.1016/0022-2496(89)90015-1.
- ^ Арбиб, Михаил (ноябрь 1969). "Обзор персептронов: введение в вычислительную геометрию"'". IEEE Transactions по теории информации. 15 (6): 738–739. Дои:10.1109 / TIT.1969.1054388.
- ^ Ньюэлл, Аллен (1969). «Шаг к пониманию информационных процессов». Наука. 165 (3895): 780–782. Дои:10.1126 / science.165.3895.780. JSTOR 1727364.
- ^ Алом, Мэри Захангир; и другие. (2018). «История началась с AlexNet: всесторонний обзор подходов к глубокому обучению». arXiv:1803.01164v1 [cs.CV ].
1969: Мински и Паперт показывают ограничения перцептронов, убивая исследования нейронных сетей в течение десятилетия.
- ^ Бехтель, Уильям (1993). «Дело в пользу коннекционизма». Философские исследования. 71 (2): 119–154. Дои:10.1007 / BF00989853. JSTOR 4320426.
- ^ "Противоречие о персептроне".
- ^ "Автор MIT AI Memo 338" (PDF).
- ^ от имени итальянского исследователя нейронных сетей Аугусто Гамба (1923–1996), создателя перцептрона PAPA
- ^ "История: Прошлое". Ucs.louisiana.edu. Получено 2013-07-10.
Рекомендации
- МакКордак, Памела (2004), Машины, которые думают (2-е изд.), Натик, Массачусетс: A. K. Peters, Ltd., ISBN 1-56881-205-1, с. 104-107
- Кревье, Даниэль (1993), AI: бурные поиски искусственного интеллекта, Нью-Йорк, Нью-Йорк: BasicBooks, ISBN 0-465-02997-3, стр. 102-105
- Рассел, Стюарт Дж.; Норвиг, Питер (2003), Искусственный интеллект: современный подход (2-е изд.), Верхняя Сэдл-Ривер, Нью-Джерси: Prentice Hall, ISBN 0-13-790395-2 п. 22
- Марвин Мински и Сеймур Паперт, 1972 г. (2-е издание с исправлениями, первое издание 1969 г.) Персептроны: введение в вычислительную геометрию, MIT Press, Кембридж, Массачусетс, ISBN 0-262-63022-2.