AlexNet - Википедия - AlexNet

AlexNet это имя сверточная нейронная сеть (CNN), разработанный Алексей Крижевский в сотрудничестве с Илья Суцкевер и Джеффри Хинтон, который был кандидатом наук Крижевского. советник.[1][2]

AlexNet соревновался в ImageNet - крупномасштабная задача по визуальному распознаванию 30 сентября 2012 г.[3] Ошибка в топ-5 составила 15,3%, что более чем на 10,8 процентных пункта ниже, чем у занявшего второе место. Первичный результат исходной статьи заключался в том, что глубина модели была важна для ее высокой производительности, которая была дорогостоящей в вычислительном отношении, но стала возможной благодаря использованию графические процессоры (GPU) во время обучения.[2]

Исторический контекст

AlexNet был не первой быстрой реализацией CNN на GPU, выигравшей конкурс распознавания изображений. CNN на GPU К. Челлапилла и др. (2006) была в 4 раза быстрее, чем эквивалентная реализация на CPU.[4] Глубокий CNN Дан Чиреган и другие. (2011) в IDSIA был уже в 60 раз быстрее[5] и достигла сверхчеловеческих характеристик в августе 2011 года.[6] С 15 мая 2011 г. по 10 сентября 2012 г. их CNN выиграл не менее четырех имиджевых конкурсов.[7][8] Они также значительно улучшили лучшие характеристики в литературе для множественных изображений. базы данных.[9]

Согласно статье AlexNet,[2] Более ранняя сеть Чирегана «в чем-то похожа». Оба были изначально написаны с CUDA бежать с GPU поддерживать. Фактически, оба на самом деле являются просто вариантами проектов CNN, представленных Янн ЛеКун и другие. (1989)[10][11] кто применил обратное распространение алгоритм к варианту оригинальной архитектуры CNN Кунихико Фукусимы под названием "неокогнитрон."[12][13] Позднее архитектура была изменена методом Дж. Венга, названным макс-пул.[14][8]

В 2015 году AlexNet уступил Microsoft Research Asia CNN с более чем 100 слоями, который выиграл конкурс ImageNet 2015.[15]

Сетевой дизайн

AlexNet состоял из восьми слоев; первые пять были сверточный слоев, за некоторыми из них следует макс-пул слои, а последние три были полностью связанными слоями.[2] Используется ненасыщающий ReLU функция активации, которая показала повышение эффективности тренировки по сравнению с танх и сигмовидный.[2]

Влияние

AlexNet считается одной из самых влиятельных статей, опубликованных в области компьютерного зрения, благодаря чему появилось гораздо больше статей, опубликованных с использованием CNN и графических процессоров для ускорения глубокого обучения.[16] По состоянию на 2020 год, по данным Google Scholar, статью AlexNet цитировали более 70 000 раз.

Рекомендации

  1. ^ «Данные, которые изменили исследования ИИ - и, возможно, весь мир».
  2. ^ а б c d е Крижевский, Алексей; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF). Коммуникации ACM. 60 (6): 84–90. Дои:10.1145/3065386. ISSN  0001-0782. S2CID  195908774.
  3. ^ «Результаты ILSVRC2012».
  4. ^ Кумар Челлапилла; Сид Пури; Патрис Симард (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар по вопросам распознавания почерка. Suvisoft.
  5. ^ Чирехан, Дан; Ули Мейер; Джонатан Маши; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF). Труды двадцать второй международной совместной конференции по искусственному интеллекту - Том второй. 2: 1237–1242. Получено 17 ноября 2013.
  6. ^ «Таблица результатов конкурса IJCNN 2011». ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011. 2010. Получено 2019-01-14.
  7. ^ Шмидхубер, Юрген (17 марта 2017 г.). «История соревнований по компьютерному зрению, выигранных глубокими CNN на GPU». Получено 14 января 2019.
  8. ^ а б Шмидхубер, Юрген (2015). «Глубокое обучение». Scholarpedia. 10 (11): 1527–54. CiteSeerX  10.1.1.76.1541. Дои:10.1162 / neco.2006.18.7.1527. PMID  16764513. S2CID  2309950.
  9. ^ Чирехан, Дан; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). С. 3642–3649. arXiv:1202.2745. CiteSeerX  10.1.1.300.3283. Дои:10.1109 / CVPR.2012.6248110. ISBN  978-1-4673-1226-4. OCLC  812295155. S2CID  2161592.
  10. ^ LeCun, Y .; Boser, B .; Denker, J. S .; Хендерсон, Д .; Howard, R.E .; Hubbard, W .; Джекель, Л. Д. (1989). «Обратное распространение, применяемое для распознавания рукописного почтового индекса» (PDF). Нейронные вычисления. MIT Press - Журналы. 1 (4): 541–551. Дои:10.1162 / neco.1989.1.4.541. ISSN  0899-7667. OCLC  364746139.
  11. ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение применительно к распознаванию документов» (PDF). Труды IEEE. 86 (11): 2278–2324. CiteSeerX  10.1.1.32.9552. Дои:10.1109/5.726791. Получено 7 октября, 2016.
  12. ^ Фукусима, К. (2007). «Неокогнитрон». Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ ... 2.1717F. Дои:10.4249 / scholarpedia.1717.
  13. ^ Фукусима, Кунихико (1980). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания образов, не подверженного изменению положения» (PDF). Биологическая кибернетика. 36 (4): 193–202. Дои:10.1007 / BF00344251. PMID  7370364. S2CID  206775608. Получено 16 ноября 2013.
  14. ^ Weng, J; Ахуджа, N; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Proc. 4-я Международная конф. Компьютерное зрение: 121–128.
  15. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2016 г.: 770–778. arXiv:1512.03385. Дои:10.1109 / CVPR.2016.90. ISBN  978-1-4673-8851-1. S2CID  206594692.
  16. ^ Дешпанде, Штольн. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io. Получено 2018-12-04.