Сверточная нейронная сеть - Википедия - Convolutional neural network

В глубокое обучение, а сверточная нейронная сеть (CNN, или же ConvNet) является классом глубокие нейронные сети, чаще всего применяется для анализа визуальных образов.[1] Они также известны как инвариант сдвига или же инвариантные в пространстве искусственные нейронные сети (SIANN) на основе их архитектуры с разделяемыми весами и инвариантность перевода характеристики.[2][3] У них есть приложения в распознавание изображений и видео, рекомендательные системы,[4] классификация изображений, анализ медицинских изображений, обработка естественного языка,[5] мозг-компьютерные интерфейсы,[6] и финансовые Временные ряды.[7]

CNN упорядоченный версии многослойные персептроны. Многослойные перцептроны обычно означают полностью связанные сети, то есть каждый нейрон в одном слое связан со всеми нейронами следующего слоя. «Полностью связность» этих сетей делает их склонными к переоснащение данные. Типичные способы регуляризации включают добавление некоторой формы измерения весов к функции потерь. CNN используют другой подход к регуляризации: они используют преимущества иерархического шаблона данных и собирают более сложные шаблоны, используя более мелкие и простые шаблоны. Следовательно, по шкале связности и сложности CNN находятся на нижнем пределе.

Сверточные сети были вдохновленный к биологический процессы[8][9][10][11] в том, что шаблон связи между нейроны напоминает организацию животного зрительная кора. Индивидуальный корковые нейроны реагировать на раздражители только в ограниченной области поле зрения известный как рецептивное поле. Рецептивные поля разных нейронов частично перекрываются, так что они покрывают все поле зрения.

CNN используют относительно мало предварительной обработки по сравнению с другими алгоритмы классификации изображений. Это означает, что сеть изучает фильтры что в традиционных алгоритмах ручной работы. Эта независимость от предшествующих знаний и человеческих усилий при разработке функций является большим преимуществом.

Определение

Название «сверточная нейронная сеть» указывает на то, что сеть использует математическую операцию, называемую свертка Сверточные сети - это специализированный тип нейронных сетей, которые используют свертку вместо общего умножения матриц по крайней мере на одном из своих слоев.[12]

Архитектура

Сверточная нейронная сеть состоит из входного и выходного слоев, а также нескольких скрытые слои. Скрытые слои CNN обычно состоят из серии сверточных слоев, которые сворачивать с умножением или другим скалярное произведение. Функция активации обычно Слой ReLU, а затем следуют дополнительные свертки, такие как объединение слоев, полностью связанных слоев и слоев нормализации, называемых скрытыми слоями, поскольку их входы и выходы маскируются функцией активации и окончательным свертка.

Сверточный

При программировании CNN входом является тензор с формой (количество изображений) x (высота изображения) x (ширина изображения) x (ввод каналы ). Затем после прохождения через сверточный слой изображение становится абстрагированным до карты объектов с формой (количество изображений) x (высота карты объектов) x (ширина карты объектов) x (карта объектов каналы ). Сверточный слой в нейронной сети должен иметь следующие атрибуты:

  • Сверточные ядра, определяемые шириной и высотой (гиперпараметры).
  • Количество входных и выходных каналов (гиперпараметр).
  • Глубина фильтра свертки (входные каналы) должна быть равна количеству каналов (глубине) входной карты функций.

Сверточные слои сворачивают входные данные и передают результат следующему слою. Это похоже на реакцию нейрона зрительной коры на определенный стимул.[13] Каждый сверточный нейрон обрабатывает данные только для своего рецептивное поле. Несмотря на то что полностью подключенные нейронные сети с прямой связью может использоваться для изучения функций, а также для классификации данных, применять эту архитектуру к изображениям непрактично. Было бы необходимо очень большое количество нейронов, даже в мелкой (противоположной глубокой) архитектуре, из-за очень больших входных размеров, связанных с изображениями, где каждый пиксель является релевантной переменной. Например, полностью связанный слой для (маленького) изображения размером 100 x 100 имеет 10 000 весов для каждый нейрон во втором слое. Операция свертки решает эту проблему, так как уменьшает количество свободных параметров, позволяя сети быть более глубокой с меньшим количеством параметров.[14] Например, независимо от размера изображения, мозаичные области размером 5 x 5, каждая с одинаковым общим весом, требует всего 25 обучаемых параметров. Используя регуляризованные веса по меньшему количеству параметров, исчезающий градиент и проблемы взрывающегося градиента, наблюдаемые в обратное распространение в традиционных нейронных сетях избегают.[15][16]

Объединение

Сверточные сети могут включать в себя локальные или глобальные уровни объединения для упрощения базовых вычислений. Слои объединения уменьшают размер данных, объединяя выходные данные кластеров нейронов на одном уровне в один нейрон на следующем уровне. Локальный пул объединяет небольшие кластеры, обычно 2 x 2. Глобальный пул действует на все нейроны сверточного слоя.[17][18] Кроме того, объединение может вычислять максимальное или среднее значение. Максимальное объединение использует максимальное значение от каждого кластера нейронов на предыдущем уровне.[19][20] Средний пул использует среднее значение от каждого кластера нейронов на предыдущем уровне.[21]

Полностью подключен

Полностью связанные слои соединяют каждый нейрон одного слоя с каждым нейроном другого слоя. Принципиально такой же, как и традиционный многослойный персептрон нейронная сеть (MLP). Сглаженная матрица проходит через полностью связанный слой для классификации изображений.

Рецептивное поле

В нейронных сетях каждый нейрон получает входные данные из некоторого количества мест на предыдущем уровне. В полностью связанном слое каждый нейрон получает вход от каждый элемент предыдущего слоя. В сверточном слое нейроны получают входные данные только из ограниченной подобласти предыдущего слоя. Обычно подобласть имеет квадратную форму (например, размер 5 на 5). Область ввода нейрона называется его рецептивное поле. Итак, в полностью связанном слое рецептивное поле - это весь предыдущий слой. В сверточном слое воспринимающая область меньше, чем весь предыдущий слой. Подобласть исходного входного изображения в рецептивном поле все больше увеличивается по мере углубления в архитектуру сети. Это происходит из-за многократного применения свертки, которая учитывает значение определенного пикселя, а также некоторых окружающих пикселей.

Вес

Каждый нейрон в нейронной сети вычисляет выходное значение, применяя определенную функцию к входным значениям, поступающим из воспринимающего поля на предыдущем уровне. Функция, которая применяется к входным значениям, определяется вектором весов и смещением (обычно действительными числами). Обучение в нейронной сети происходит за счет итеративной корректировки этих смещений и весов.

Вектор весов и смещения называется фильтры и представляют собой особые Особенности входных данных (например, определенной формы). Отличительной чертой CNN является то, что многие нейроны могут использовать один и тот же фильтр. Это снижает объем памяти потому что одно смещение и один вектор весов используются для всех рецептивных полей, разделяющих этот фильтр, в отличие от каждого рецептивного поля, имеющего собственное смещение и векторное взвешивание.[22]

История

Дизайн CNN следует за обработкой изображений в живые организмы.[нужна цитата ]

Рецептивные поля в зрительной коре

Работа Hubel и Визель в 1950-х и 1960-х годах показали, что визуальные эффекты кошек и обезьян кора содержат нейроны, которые индивидуально реагируют на небольшие участки поле зрения. При условии, что глаза неподвижны, область зрительного пространства, в которой зрительные стимулы влияют на активацию одного нейрона, называется его рецептивное поле.[23] Соседние клетки имеют похожие и перекрывающиеся рецептивные поля.[нужна цитата ] Размер и расположение рецептивного поля систематически меняются в коре головного мозга, чтобы сформировать полную карту визуального пространства.[нужна цитата ] Кора в каждом полушарии представляет собой противоположную сторону. поле зрения.[нужна цитата ]

Их статья 1968 года определила два основных типа зрительных клеток мозга:[9]

  • простые клетки, чей выход максимизируется прямыми краями, имеющими определенную ориентацию в пределах их воспринимающего поля
  • сложные клетки, у которых больше рецептивные поля, вывод которой нечувствителен к точному положению краев в поле.

Хьюбел и Визель также предложили каскадную модель этих двух типов ячеек для использования в задачах распознавания образов.[24][23]

Неокогнитрон, происхождение архитектуры CNN

"неокогнитрон "[8] был представлен Кунихико Фукусима в 1980 г.[10][20][25]Он был вдохновлен вышеупомянутой работой Хьюбеля и Визеля. Неокогнитрон представил два основных типа слоев в CNN: сверточные слои и слои с понижающей дискретизацией. Сверточный слой содержит блоки, рецептивные поля которых покрывают участок предыдущего слоя. Весовой вектор (набор адаптивных параметров) такого блока часто называют фильтром. Юниты могут использовать общие фильтры. Слои с понижающей дискретизацией содержат блоки, рецептивные поля которых покрывают участки предыдущих сверточных слоев. Такой юнит обычно вычисляет среднее значение активаций юнитов в своем патче. Эта понижающая дискретизация помогает правильно классифицировать объекты в визуальных сценах, даже когда объекты сдвинуты.

В варианте неокогнитрона, называемом крецептроном, вместо использования пространственного усреднения Фукусимы J. Weng et al. представил метод, называемый max-pooling, при котором блок понижающей дискретизации вычисляет максимум активаций блоков в своем патче.[26] Max-pooling часто используется в современных CNN.[27]

На протяжении десятилетий было предложено несколько алгоритмов контролируемого и неконтролируемого обучения для тренировки веса неокогнитрона.[8] Однако сегодня архитектуру CNN обычно обучают через обратное распространение.

В неокогнитрон это первая CNN, которая требует, чтобы блоки, расположенные в нескольких сетевых позициях, имели общие веса. Неокогнитроны были адаптированы в 1988 году для анализа изменяющихся во времени сигналов.[28]

Нейронные сети с временной задержкой

В нейронная сеть с задержкой (TDNN) была представлена ​​в 1987 г. Алекс Вайбель и другие. и была первой сверточной сетью, поскольку она достигла инвариантности сдвига.[29] Это было сделано за счет распределения веса в сочетании с Обратное распространение обучение персонала.[30] Таким образом, используя также пирамидальную структуру, как в неокогнитроне, он выполнил глобальную оптимизацию весов вместо локальной.[29]

TDNN - это сверточные сети, которые разделяют веса во временном измерении.[31] Они позволяют обрабатывать речевые сигналы независимо от времени. В 1990 году Хэмпшир и Вайбел представили вариант, который выполняет двумерную свертку.[32] Поскольку эти TDNN оперировали спектрограммами, полученная система распознавания фонем была инвариантной как к сдвигам во времени, так и по частоте. Это вдохновило на неизменность перевода при обработке изображений с помощью CNN.[30] Распределение выходных сигналов нейронов может охватывать временные этапы.[33]

TDNN теперь обеспечивают наилучшую производительность при распознавании речи на большом расстоянии.[34]

Максимальное объединение

В 1990 году Ямагути и др. представил концепцию максимального пула. Они сделали это, объединив TDNN с максимальным объединением, чтобы реализовать независимую от говорящего изолированную систему распознавания слов.[19] В своей системе они использовали несколько TDNN на слово, по одной для каждого слова. слог. Результаты каждой TDNN по входному сигналу были объединены с использованием максимального объединения, а выходные данные уровней объединения были затем переданы в сети, выполняющие фактическую классификацию слов.

Распознавание изображений с помощью CNN, обученных методом градиентного спуска

Система распознавания рукописных Почтовый индекс числа[35] включали свертки, в которых коэффициенты ядра были тщательно разработаны вручную.[36]

Янн ЛеКун и другие. (1989)[36] использовал обратное распространение, чтобы узнать коэффициенты ядра свертки непосредственно из изображений рукописных чисел. Таким образом, обучение было полностью автоматическим, выполнялось лучше, чем ручное вычисление коэффициентов, и подходило для более широкого круга задач распознавания изображений и типов изображений.

Такой подход стал основой современного компьютерное зрение.

LeNet-5

LeNet-5, новаторская 7-уровневая сверточная сеть, созданная LeCun и другие. в 1998 г.,[37] который классифицирует цифры, был применен несколькими банками для распознавания рукописных цифр на чеках (Британский английский: чеки) оцифрованы в изображениях размером 32x32 пикселей. Способность обрабатывать изображения с более высоким разрешением требует все большего и большего числа слоев сверточных нейронных сетей, поэтому этот метод ограничен доступностью вычислительных ресурсов.

Сдвиг-инвариантная нейронная сеть

Точно так же нейронная сеть, инвариантная к сдвигу, была предложена W. Zhang et al. для распознавания символов изображения в 1988 году.[2][3] Архитектура и алгоритм обучения были изменены в 1991 г.[38] и применяется для обработки медицинских изображений[39] и автоматическое обнаружение рака груди в маммограммы.[40]

Другой дизайн на основе свертки был предложен в 1988 г.[41] для применения к разложению одномерных электромиография свернутые сигналы через дек-свертку. Этот дизайн был изменен в 1989 году на другие конструкции, основанные на деконволюции.[42][43]

Пирамида нейронной абстракции

Пирамида нейронной абстракции
Пирамида нейронной абстракции

Архитектура с прямой связью сверточных нейронных сетей была расширена в пирамиде нейронной абстракции.[44] боковыми и обратными связями. Результирующая рекуррентная сверточная сеть позволяет гибко включать контекстную информацию для итеративного разрешения локальных неоднозначностей. В отличие от предыдущих моделей, выходные данные, подобные изображению, с самым высоким разрешением были созданы, например, для семантической сегментации, реконструкции изображения и задач локализации объектов.

Реализации GPU

Хотя CNN были изобретены в 1980-х годах, их прорыв в 2000-х годах потребовал быстрого внедрения на графические процессоры (GPU).

В 2004 году К. С. О и К. Юнг показали, что стандартные нейронные сети могут быть значительно ускорены на графических процессорах. Их реализация была в 20 раз быстрее, чем аналогичная реализация на ЦПУ.[45][27] В 2005 году в другом документе также подчеркивалась ценность ГПГПУ за машинное обучение.[46]

Первая реализация CNN на GPU была описана в 2006 году K. Chellapilla et al. Их реализация была в 4 раза быстрее, чем аналогичная реализация на CPU.[47] В последующих работах также использовались графические процессоры, первоначально для других типов нейронных сетей (отличных от CNN), особенно нейронных сетей без учителя.[48][49][50][51]

В 2010 году Дэн Чиресан и др. в IDSIA показали, что даже глубокие стандартные нейронные сети со многими уровнями могут быть быстро обучены на графическом процессоре путем контролируемого обучения с помощью старого метода, известного как обратное распространение. Их сеть превзошла предыдущие методы машинного обучения на MNIST тест рукописных цифр.[52] В 2011 году они распространили этот подход с использованием графических процессоров на CNN, добившись коэффициента ускорения 60 с впечатляющими результатами.[17] В 2011 году они использовали такие CNN на графическом процессоре, чтобы выиграть конкурс распознавания изображений, в котором они впервые достигли сверхчеловеческой производительности.[53] В период с 15 мая 2011 г. по 30 сентября 2012 г. их CNN выиграли не менее четырех имиджевых конкурсов.[54][27] В 2012 году они также значительно улучшили лучшие показатели в литературе для множественных изображений. базы данных, в том числе База данных MNIST, база данных NORB, набор данных HWDB1.0 (китайские символы) и Набор данных CIFAR10 (набор данных 60000 32x32 помеченных Изображения RGB ).[20]

Впоследствии аналогичный CNN на базе GPU Алекса Крижевского и др. выиграл ImageNet - крупномасштабная задача по визуальному распознаванию 2012.[55] В конкурсе ImageNet 2015 победила очень глубокая CNN с более чем 100 слоями, созданная Microsoft.[56]

Реализации Intel Xeon Phi

По сравнению с обучением CNN с использованием GPU, не так много внимания уделялось Intel Xeon Phi сопроцессор.[57]Примечательной разработкой является метод распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi, названный Controlled Hogwild с произвольным порядком синхронизации (CHAOS).[58]CHAOS использует как поток, так и SIMD -уровневый параллелизм, доступный на Intel Xeon Phi.

Отличительные черты

В прошлом традиционные многослойный персептрон (MLP) модели использовались для распознавания изображений.[пример необходим ] Однако из-за полной связи между узлами они пострадали от проклятие размерности, и плохо масштабировался с изображениями с более высоким разрешением. Изображение размером 1000 × 1000 пикселей с Цвет RGB каналов имеет 3 миллиона весов, что слишком много для эффективной обработки в масштабе с полной связью.

Слои CNN расположены в 3-х измерениях

Например, в СИФАР-10, изображения имеют размер только 32 × 32 × 3 (32 в ширину, 32 в высоту, 3 цветовых канала), поэтому один полностью связанный нейрон в первом скрытом слое обычной нейронной сети будет иметь 32 * 32 * 3 = 3072 веса. Однако изображение размером 200 × 200 приведет к появлению нейронов с весами 200 * 200 * 3 = 120 000.

Кроме того, такая сетевая архитектура не принимает во внимание пространственную структуру данных, обрабатывая входные пиксели, которые находятся далеко друг от друга, так же, как пиксели, которые расположены близко друг к другу. Это игнорирует местонахождение ссылки в данных изображения, как вычислительно, так и семантически. Таким образом, полная связь нейронов расточительна для таких целей, как распознавание изображений, в которых преобладают пространственно локальный шаблоны ввода.

Сверточные нейронные сети - это биологически вдохновленные варианты многослойных персептронов, которые предназначены для имитации поведения человека. зрительная кора. Эти модели смягчают проблемы, связанные с архитектурой MLP, за счет использования сильной пространственно-локальной корреляции, присутствующей в естественных изображениях. В отличие от MLP, CNN имеют следующие отличительные особенности:

  • 3D-объемы нейронов. Слои CNN имеют нейроны, расположенные в 3 измерения: ширина, высота и глубина.[нужна цитата ] где каждый нейрон внутри сверточного слоя связан только с небольшой областью слоя перед ним, называемой рецептивным полем. Различные типы слоев, как локально, так и полностью связанные, складываются в стек, чтобы сформировать архитектуру CNN.
  • Локальная связность: следуя концепции рецептивных полей, CNN используют пространственную локальность, навязывая шаблон локальной связи между нейронами соседних слоев. Таким образом, архитектура гарантирует, что изученный "фильтры "производят самый сильный отклик на пространственно локальный входной шаблон. Наложение множества таких слоев приводит к нелинейные фильтры которые становятся все более глобальными (т.е. реагируют на большую область пиксельного пространства), так что сеть сначала создает представления небольших частей входных данных, а затем из них собирает представления более крупных областей.
  • Общие веса: в CNN каждый фильтр реплицируется по всему визуальному полю. Эти реплицированные единицы имеют одинаковую параметризацию (вектор веса и смещение) и образуют карту характеристик. Это означает, что все нейроны в данном сверточном слое реагируют на одну и ту же функцию в пределах своего конкретного поля ответа. Репликация единиц таким образом позволяет получить карту объектов. эквивариантный при изменении расположения входных объектов в поле зрения, то есть они обеспечивают трансляционную эквивалентность.
  • Объединение: в слоях объединения CNN карты характеристик делятся на прямоугольные подобласти, и функции в каждом прямоугольнике независимо подвергаются понижающей дискретизации до одного значения, обычно с использованием их среднего или максимального значения. В дополнение к уменьшению размеров карт функций, операция объединения предоставляет некоторую степень трансляционная инвариантность с функциями, содержащимися в нем, что позволяет CNN быть более устойчивым к изменениям в их позициях.

Вместе эти свойства позволяют CNN достичь лучшего обобщения на проблемы со зрением. Распределение веса резко снижает количество бесплатные параметры обучены, тем самым снижая требования к памяти для работы сети и позволяя обучать более крупные и мощные сети.

Строительные блоки

Архитектура CNN сформирована стеком отдельных слоев, которые преобразуют входной объем в выходной том (например, удерживая оценки класса) с помощью дифференцируемой функции. Обычно используются несколько различных типов слоев. Это более подробно обсуждается ниже.

Нейроны сверточного слоя (синий), связанные со своим рецептивным полем (красный)

Сверточный слой

Сверточный слой является основным строительным блоком CNN. Параметры слоя состоят из набора обучаемых фильтры (или же ядра ), которые имеют небольшое воспринимающее поле, но простираются на всю глубину входного объема. Во время прямого прохода каждый фильтр свернутый по ширине и высоте входного объема, вычисляя скалярное произведение между записями фильтра и входом и создание двумерного карта активации этого фильтра. В результате сеть изучает фильтры, которые активируются при обнаружении определенного типа особенность в некоторой пространственной позиции на входе.[59][nb 1]

Сложение карт активации для всех фильтров по измерению глубины формирует полный выходной объем сверточного слоя. Таким образом, каждую запись в выходном объеме можно также интерпретировать как выход нейрона, который смотрит на небольшую область на входе и разделяет параметры с нейронами на той же карте активации.

Локальная связь

Типичная архитектура CNN

При работе с многомерными входными данными, такими как изображения, непрактично подключать нейроны ко всем нейронам в предыдущем томе, поскольку такая сетевая архитектура не принимает во внимание пространственную структуру данных. Сверточные сети используют пространственно локальную корреляцию, обеспечивая слабая локальная связь паттерн между нейронами соседних слоев: каждый нейрон связан только с небольшой областью входного объема.

Степень этой связи является гиперпараметр называется рецептивное поле нейрона. Связи местный в космосе (по ширине и высоте), но всегда проходят по всей глубине входного объема. Такая архитектура гарантирует, что изученные фильтры дают самый сильный отклик на пространственно локальный входной шаблон.

Пространственное расположение

Три гиперпараметры контролировать размер выходного объема сверточного слоя: глубину, шагать и заполнение нулями.

  • В глубина выходного объема контролирует количество нейронов в слое, которые подключаются к той же области входного объема. Эти нейроны учатся активироваться для различных функций на входе. Например, если первый сверточный слой принимает необработанное изображение в качестве входных данных, то различные нейроны по измерению глубины могут активироваться в присутствии различных ориентированных краев или пятен цвета.
  • Шаг управляет распределением столбцов глубины вокруг пространственных измерений (ширины и высоты). Когда шаг равен 1, мы перемещаем фильтры по одному пикселю за раз. Это приводит к сильному перекрытие восприимчивые поля между столбцами, а также к большим объемам вывода. Когда шаг равен 2, фильтры перемещаются по 2 пикселя за раз. Аналогично для любого целого числа шаг S вызывает перевод фильтра S единиц за один выход. На практике длина шага редки. При увеличении длины шага рецептивные поля меньше перекрываются, и результирующий выходной объем имеет меньшие пространственные размеры.[60]
  • Иногда удобно заполнить ввод нулями на границе объема ввода. Размер этого отступа - третий гиперпараметр. Padding обеспечивает управление пространственным размером выходного тома. В частности, иногда желательно точно сохранить пространственный размер входного объема.

Пространственный размер выходного объема можно вычислить как функцию размера входного объема. , размер поля ядра нейронов сверточного слоя , шаг, с которым они применяются , и количество нулевых отступов используется на границе. Формула для расчета количества нейронов «умещается» в заданном объеме:

Если это число не целое число, то шаги неверны, и нейроны не могут быть выложены плиткой, чтобы соответствовать входному объему в симметричный путь. В общем, установка нулевого отступа на когда шаг гарантирует, что входной и выходной объем будут иметь одинаковый пространственный размер. Однако не всегда полностью необходимо использовать все нейроны предыдущего слоя. Например, разработчик нейронной сети может решить использовать только часть заполнения.

Совместное использование параметров

Схема совместного использования параметров используется в сверточных слоях для управления количеством свободных параметров. Он основан на предположении, что если функция патча полезна для вычисления в некоторой пространственной позиции, то она также должна быть полезна для вычисления в других позициях. Обозначая один двумерный срез глубины как срез глубины, нейроны в каждом глубинном срезе должны использовать одинаковые веса и смещения.

Поскольку все нейроны в одном глубинном срезе имеют одни и те же параметры, прямой проход в каждом глубинном срезе сверточного слоя можно вычислить как свертка весов нейрона с входным объемом.[nb 2] Поэтому обычно наборы весов называют фильтром (или ядро ), который сворачивается с вводом. Результатом этой свертки является карта активации, а набор карт активации для каждого отдельного фильтра складывается вместе по измерению глубины для получения выходного объема. Совместное использование параметров способствует инвариантность перевода архитектуры CNN.

Иногда предположение о совместном использовании параметров может не иметь смысла. Это особенно актуально, когда входные изображения в CNN имеют некоторую конкретную центрированную структуру; для которого мы ожидаем, что совершенно разные функции будут изучены в разных пространственных точках. Одним из практических примеров является случай, когда входными данными являются лица, центрированные на изображении: мы можем ожидать, что в разных частях изображения будут изучены различные специфические для глаз или волос особенности. В этом случае обычно ослабляют схему совместного использования параметров и вместо этого просто называют уровень «локально подключенным уровнем».

Уровень объединения

Максимальное объединение с фильтром 2x2 и шагом = 2

Еще одна важная концепция CNN - это пул, который представляет собой форму нелинейного понижающая выборка. Есть несколько нелинейных функций для реализации объединения, среди которых максимальный пул самый распространенный. Это перегородки входное изображение в набор неперекрывающихся прямоугольников и для каждой такой подобласти выводит максимум.

Интуитивно понятно, что точное расположение объекта менее важно, чем его приблизительное расположение относительно других объектов. Это идея использования пула в сверточных нейронных сетях. Слой объединения служит для постепенного уменьшения пространственного размера представления, уменьшения количества параметров, объем памяти и количество вычислений в сети, и, следовательно, также контролировать переоснащение. Обычно между последовательными сверточными слоями периодически вставляют объединяющий слой (за каждым обычно следует Слой ReLU ) в архитектуре CNN.[59]:460–461 Операция объединения может использоваться как еще одна форма инвариантности трансляции.[59]:458

Слой объединения работает независимо на каждом срезе глубины ввода и изменяет его размер в пространстве. Самая распространенная форма - это объединяющий слой с фильтрами размера 2 × 2, применяемыми с шагом 2 субдискретизации на каждом срезе глубины на входе на 2 по ширине и высоте, отбрасывая 75% активаций:

В этом случае каждые максимальная операция больше 4 номеров. Размер глубины остается неизменным.

Помимо максимального объединения, блоки объединения могут использовать другие функции, такие как средний объединение или 2-норма объединение. Исторически сложилось так, что средний пул часто использовался, но в последнее время он потерял популярность по сравнению с максимальным пулом, который на практике работает лучше.[61]

Из-за агрессивного уменьшения размера представительства,[который? ] в последнее время наблюдается тенденция к использованию более мелких фильтров[62] или вообще отказавшись от объединяющих слоев.[63]

RoI пул до размера 2x2. В этом примере предложение региона (входной параметр) имеет размер 7x5.

"Область интересов «Объединение» (также известное как объединение RoI) - это вариант максимального объединения, в котором размер вывода является фиксированным, а прямоугольник ввода является параметром.[64]

Пул - важный компонент сверточных нейронных сетей для обнаружение объекта на основе Fast R-CNN[65] архитектура.

Слой ReLU

ReLU - это аббревиатура от выпрямленный линейный блок, который применяет ненасыщающий функция активации .[55] Он эффективно удаляет отрицательные значения из карты активации, устанавливая их на ноль.[66] Это увеличивает нелинейные свойства из функция принятия решения и всей сети без воздействия на рецептивные поля сверточного слоя.

Другие функции также используются для увеличения нелинейности, например, насыщение гиперболический тангенс , , а сигмовидная функция . ReLU часто предпочитают другим функциям, потому что он обучает нейронную сеть в несколько раз быстрее без значительного ущерба для обобщение точность.[67]

Полностью связанный слой

Наконец, после нескольких уровней сверточного и максимального пула, высокоуровневые рассуждения в нейронной сети выполняются через полностью связанные уровни. Нейроны в полностью связанном слое имеют связи со всеми активациями на предыдущем слое, как видно на обычном (несверточном) уровне. искусственные нейронные сети. Таким образом, их активации можно вычислить как аффинное преобразование, с матричное умножение за которым следует смещение смещения (векторное сложение усвоенного или фиксированного термина смещения).[нужна цитата ]

Слой потерь

«Слой потерь» определяет, как обучение персонала штрафует отклонение между прогнозируемым (выходным) и истинный label и обычно является последним слоем нейронной сети. Разные функции потерь подходят для разных задач.

Softmax потеря используется для прогнозирования одного класса K взаимоисключающие классы.[№ 3] Сигмовидная кросс-энтропия убыток используется для прогнозирования K независимые значения вероятностей в . Евклидово потеря используется для регресс к ценный этикетки .

Выбор гиперпараметров

CNN используют больше гиперпараметры чем стандартный многослойный персептрон (MLP). Хотя обычные правила для скорость обучения и регуляризация константы по-прежнему применяются, при оптимизации следует учитывать следующее.

Количество фильтров

Поскольку размер карты объектов уменьшается с глубиной, слои рядом с входным слоем будут иметь меньше фильтров, в то время как более высокие слои могут иметь больше. Чтобы уравнять вычисления на каждом слое, произведение значений признаков vа при этом положение пикселя остается примерно постоянным по слоям. Для сохранения большего количества информации о вводе потребуется, чтобы общее количество активаций (количество карт функций, умноженное на количество позиций пикселей) не уменьшалось от одного слоя к другому.

Количество карт функций напрямую влияет на емкость и зависит от количества доступных примеров и сложности задачи.

Форма фильтра

Общие формы фильтров, которые можно найти в литературе, сильно различаются и обычно выбираются на основе набора данных.

Таким образом, задача состоит в том, чтобы найти правильный уровень детализации, чтобы создавать абстракции в надлежащем масштабе, с учетом конкретного набора данных и без переоснащение.

Максимальная форма объединения

Типичные значения - 2 × 2. Очень большие входные объемы могут потребовать объединения 4 × 4 в нижних слоях.[68] Однако выбор более крупных форм значительно уменьшить размер сигнала, и может привести к превышению потеря информации. Часто лучше всего работают неперекрывающиеся окна объединения.[61]

Методы регуляризации

Регуляризация представляет собой процесс введения дополнительной информации для решения некорректно поставленная проблема или предотвратить переоснащение. CNN используют различные типы регуляризации.

Эмпирический

Выбывать

Поскольку полностью связанный слой занимает большинство параметров, он подвержен переобучению. Один из способов уменьшить переобучение - это выбывать.[69][70] На каждом этапе обучения отдельные узлы с вероятностью «выпадают» из сети. или хранится с вероятностью , так что остается сокращенная сеть; входящие и исходящие ребра выпавшего узла также удаляются. На этом этапе на данных обучается только сокращенная сеть. Затем удаленные узлы повторно вставляются в сеть с их исходными весами.

На этапах обучения вероятность того, что скрытый узел будет удален, обычно составляет 0,5; для входных узлов, однако, эта вероятность обычно намного ниже, поскольку информация напрямую теряется, когда входные узлы игнорируются или отбрасываются.

Во время тестирования после завершения обучения мы в идеале хотели бы найти выборочное среднее всех возможных выпавшие сети; к сожалению, это невозможно для больших значений . Тем не менее, мы можем найти приближение, используя полную сеть с выходом каждого узла, взвешенным с коэффициентом , Итак ожидаемое значение вывода любого узла такая же, как на этапах обучения. Это самый большой вклад метода отсева: хотя он эффективно генерирует нейронные сети и, как таковые, позволяют комбинировать модели, во время тестирования необходимо протестировать только одну сеть.

Избегая обучения всех узлов на всех обучающих данных, отсев снижает переобучение. Также метод значительно увеличивает скорость обучения. Это делает комбинацию моделей практичной даже для глубокие нейронные сети. Кажется, что этот метод уменьшает взаимодействие узлов, что приводит их к изучению более надежных функций.[требуется разъяснение ] что лучше обобщить на новые данные.

DropConnect

DropConnect - это обобщение отказа, в котором каждое соединение, а не каждый выходной блок, может быть сброшено с вероятностью. . Таким образом, каждая единица получает входные данные от случайного подмножества единиц на предыдущем уровне.[71]

DropConnect похож на dropout, поскольку он вводит динамическую разреженность в модель, но отличается тем, что разреженность зависит от весов, а не для выходных векторов слоя. Другими словами, полностью связанный уровень с DropConnect становится редко связанным слоем, в котором соединения выбираются случайным образом на этапе обучения.

Стохастический пул

Главный недостаток Dropout заключается в том, что он не имеет тех же преимуществ для сверточных слоев, где нейроны не полностью связаны.

В стохастическом пулинге[72] обычный детерминированный операции объединения заменяются стохастической процедурой, в которой активация в каждой области объединения выбирается случайным образом в соответствии с полиномиальное распределение, заданные действиями в регионе объединения. Этот подход свободен от гиперпараметров и может сочетаться с другими подходами регуляризации, такими как отсев и увеличение данных.

Альтернативный взгляд на стохастический пул состоит в том, что он эквивалентен стандартному максимальному объединению, но с множеством копий входного изображения, каждая из которых имеет небольшие локальные деформации. Это похоже на явное упругие деформации входных изображений,[73] который обеспечивает отличную производительность на Набор данных MNIST.[73] Использование стохастического объединения в многослойной модели дает экспоненциальное количество деформаций, поскольку выборки в более высоких слоях не зависят от тех, что ниже.

Искусственные данные

Поскольку степень переобучения модели определяется как ее мощностью, так и объемом обучения, которое она получает, предоставление сверточной сети большего количества обучающих примеров может уменьшить переобучение. Поскольку эти сети обычно обучаются со всеми доступными данными, один из подходов состоит в том, чтобы либо генерировать новые данные с нуля (если возможно), либо изменять существующие данные для создания новых. Например, входные изображения могут быть асимметрично обрезаны на несколько процентов для создания новых примеров с той же меткой, что и оригинал.[74]

Явный

Ранняя остановка

Один из простейших методов предотвращения переобучения сети - просто остановить обучение до того, как произойдет переобучение. Его недостатком является то, что процесс обучения останавливается.

Количество параметров

Другой простой способ предотвратить переоснащение - ограничить количество параметров, обычно путем ограничения количества скрытых единиц на каждом уровне или ограничения глубины сети. Для сверточных сетей размер фильтра также влияет на количество параметров. Ограничение количества параметров напрямую ограничивает предсказательную силу сети, уменьшая сложность функции, которую она может выполнять с данными, и, таким образом, ограничивает количество переобучения. Это эквивалентно "нулевая норма ".

Снижение веса

Простая форма добавленного регуляризатора - это уменьшение веса, которое просто добавляет дополнительную ошибку, пропорциональную сумме весов (L1 норма ) или квадрате величины (L2 норма ) весового вектора к ошибке в каждом узле. Уровень приемлемой сложности модели можно снизить, увеличив константу пропорциональности, тем самым увеличив штраф за большие весовые векторы.

Регуляризация L2 - наиболее распространенная форма регуляризации. Это может быть реализовано путем штрафования квадрата величины всех параметров непосредственно в объективе. Регуляризация L2 имеет интуитивно понятную интерпретацию сильного наказания векторов пиковых весов и предпочтение векторов диффузных весов. Из-за мультипликативного взаимодействия между весами и входами это имеет полезное свойство, побуждающее сеть использовать все свои входы немного, а не некоторые из них много.

Регуляризация L1 - еще одна распространенная форма. Можно комбинировать L1 с регуляризацией L2 (это называется Упругая сетевая регуляризация ). Регуляризация L1 приводит к тому, что весовые векторы становятся разреженными во время оптимизации. Другими словами, нейроны с регуляризацией L1 в конечном итоге используют только разреженное подмножество своих наиболее важных входных данных и становятся почти инвариантными к шумным входам.

Ограничения максимальной нормы

Другой формой регуляризации является обеспечение абсолютной верхней границы величины вектора весов для каждого нейрона и использование прогнозируемый градиентный спуск чтобы обеспечить соблюдение ограничения. На практике это соответствует выполнению обновления параметра как обычно, а затем наложению ограничения путем ограничения вектора веса. каждого нейрона, чтобы удовлетворить . Типичные значения порядка 3–4. Некоторые статьи сообщают об улучшениях[75] при использовании этой формы регуляризации.

Иерархические системы координат

При объединении теряются точные пространственные отношения между частями высокого уровня (такими как нос и рот на изображении лица). Эти отношения необходимы для распознавания личности. Перекрытие пулов, чтобы каждая функция находилась в нескольких пулах, помогает сохранить информацию. Сам по себе перевод не может экстраполировать понимание геометрических отношений на радикально новую точку зрения, такую ​​как другую ориентацию или масштаб. С другой стороны, люди очень хорошо умеют экстраполировать; увидев новую форму, они могут узнать ее с другой точки зрения.[76]

В настоящее время распространенным способом решения этой проблемы является обучение сети преобразованным данным в различных ориентациях, масштабах, освещении и т. Д., Чтобы сеть могла справиться с этими вариациями. Это требует больших вычислений для больших наборов данных. Альтернативой является использование иерархии координатных фреймов и группы нейронов для представления сочетания формы объекта и его положения относительно объекта. сетчатка. Поза относительно сетчатки - это взаимосвязь между системой координат сетчатки и системой координат внутренних функций.[77]

Таким образом, один из способов представления чего-либо - встроить в него координатную рамку. Как только это будет сделано, большие черты лица можно будет распознать, используя согласованность поз их частей (например, позы носа и рта делают последовательное предсказание позы всего лица). Использование этого подхода гарантирует, что сущность более высокого уровня (например, лицо) присутствует, когда более низкий уровень (например, нос и рот) согласовывает свой прогноз позы. Векторы нейронной активности, представляющие позу («векторы позы»), позволяют моделировать пространственные преобразования как линейные операции, которые упрощают для сети изучение иерархии визуальных объектов и обобщение по точкам зрения. Это похоже на то, как человек зрительная система накладывает рамки координат для представления форм.[78]

Приложения

Распознавание изображений

CNN часто используются в распознавание изображений системы. В 2012 г. частота ошибок 0,23 процента на База данных MNIST Сообщалось.[20] В другой статье об использовании CNN для классификации изображений сообщается, что процесс обучения был «на удивление быстрым»; в той же статье лучшие опубликованные результаты по состоянию на 2011 год были получены в базе данных MNIST и базе данных NORB.[17] Впоследствии аналогичный CNN назвал AlexNet[79] выиграл ImageNet - крупномасштабная задача по визуальному распознаванию 2012.

Применительно к распознавание лиц, CNN значительно снизили количество ошибок.[80] В другой статье сообщается, что уровень распознавания 97,6 процента «5600 неподвижных изображений более 10 предметов».[11] CNN использовались для оценки качество видео объективно после ручного обучения; получившаяся система имела очень низкий Средняя квадратическая ошибка.[33]

В ImageNet - крупномасштабная задача по визуальному распознаванию - это эталон классификации и обнаружения объектов с миллионами изображений и сотнями классов объектов. В ILSVRC 2014,[81] Это масштабная задача визуального распознавания, почти каждая высокопоставленная команда использовала CNN в качестве основной структуры. Победитель GoogLeNet[82] (фундамент DeepDream ) увеличил среднее значение точность обнаружения объектов до 0,439329 и снижение ошибки классификации до 0,06656, лучший результат на сегодняшний день. В его сети применено более 30 слоев. Производительность сверточных нейронных сетей в тестах ImageNet была близка к показателям людей.[83] Лучшие алгоритмы все еще борются с маленькими или тонкими объектами, такими как маленький муравей на стебле цветка или человек, держащий перо в руке. У них также есть проблемы с изображениями, которые были искажены фильтрами, что становится все более распространенным явлением в современных цифровых камерах. Напротив, такие изображения редко беспокоят людей. Однако у людей обычно возникают проблемы с другими проблемами. Например, они не умеют классифицировать объекты по мелкозернистым категориям, таким как конкретная порода собак или вид птиц, тогда как сверточные нейронные сети справляются с этим.[нужна цитата ]

В 2015 году многослойная CNN продемонстрировала способность обнаруживать лица под разными углами, в том числе перевернутыми, даже при частичном перекрытии, с конкурентоспособной производительностью. Сеть была обучена на базе данных из 200 000 изображений, которые включали лица под разными углами и ориентациями, и еще 20 миллионов изображений без лиц. Они использовали пакеты из 128 изображений за 50 000 итераций.[84]

Видеоанализ

По сравнению с доменами данных изображений, относительно мало работы по применению CNN для классификации видео. Видео сложнее изображений, поскольку имеет другое (временное) измерение. Однако были изучены некоторые расширения CNN в видеодомене. Один из подходов - рассматривать пространство и время как эквивалентные измерения входных данных и выполнять свертки как во времени, так и в пространстве.[85][86] Другой способ - объединить функции двух сверточных нейронных сетей, одну для пространственного, а другую для временного потока.[87][88][89] Долговременная кратковременная память (LSTM) повторяющийся единицы обычно включаются после CNN для учета межкадровых или межклиповых зависимостей.[90][91] Обучение без учителя были введены схемы обучения пространственно-временных функций, основанные на Convolutional Gated Restricted Машины Больцмана[92] и независимый анализ подпространств.[93]

Обработка естественного языка

CNN также были исследованы для обработка естественного языка. Модели CNN эффективны для решения различных проблем НЛП и достигли отличных результатов в семантический анализ,[94] поиск по поисковому запросу,[95] моделирование предложения,[96] классификация[97] прогноз[98] и другие традиционные задачи НЛП.[99]

Обнаружение аномалий

CNN с одномерными свертками использовалась для временных рядов в частотной области (спектральный остаток) неконтролируемой моделью для обнаружения аномалий во временной области.[100]

Открытие наркотиков

CNN использовались в открытие лекарств. Прогнозирование взаимодействия между молекулами и биологическими белки может определить потенциальные методы лечения. В 2015 году Atomwise представила AtomNet, первую нейронную сеть с глубоким обучением для структурных рациональный дизайн лекарств.[101] Система обучается непосредственно на трехмерных представлениях химических взаимодействий. Подобно тому, как сети распознавания изображений учатся составлять более мелкие, пространственно близкие объекты в более крупные сложные структуры,[102] AtomNet обнаруживает химические свойства, такие как ароматичность, зр3 угли и водородная связь. Впоследствии AtomNet использовалась для предсказания нового кандидата. биомолекулы для нескольких целей заболеваний, в первую очередь для лечения Вирус Эбола[103] и рассеянный склероз.[104]

Оценка риска для здоровья и открытие биомаркеров старения

CNN могут быть естественным образом адаптированы для анализа достаточно большой коллекции Временные ряды данные, представляющие потоки физической активности человека в течение одной недели, дополненные обширными клиническими данными (включая регистр смертей, как, например, NHANES изучать). Простой CNN был объединен с Cox-Gompertz модель пропорциональных рисков и используется для демонстрации концепции цифровых биомаркеры старения в форме предиктора смертности от всех причин.[105]

Игра в шашки

CNN использовались в игре шашки. С 1999 по 2001 гг. Фогель и Челлапилла опубликовали статьи, показывающие, как сверточная нейронная сеть может научиться играть шашка используя коэволюцию. В процессе обучения не использовались предыдущие профессиональные игры человека, а скорее был сосредоточен на минимальном наборе информации, содержащейся в шахматной доске: расположение и тип фигур, а также разница в количестве фигур между двумя сторонами. В конечном итоге программа (Блондинка24 ) был протестирован в 165 играх с игроками и занял первое место в 0,4%.[106][107] Он также выиграл у программы Чинук на своем «экспертном» уровне игры.[108]

Идти

CNN использовались в компьютер Go. В декабре 2014 года Кларк и Сторки опубликовали статью, показывающую, что CNN, обученная путем обучения с учителем из базы данных профессиональных игр людей, может превзойти GNU Go и выиграть несколько игр против Поиск в дереве Монте-Карло Fuego 1.1 намного быстрее, чем Fuego.[109] Позже было объявлено, что большая 12-слойная сверточная нейронная сеть правильно предсказала профессиональный ход в 55% позиций, что сравнимо с точностью до 6 дан человек-игрок. Когда обученная сверточная сеть использовалась непосредственно для игр в го, без какого-либо поиска, она превосходила традиционную поисковую программу. GNU Go в 97% игр и соответствовал производительности Поиск в дереве Монте-Карло программа Fuego, имитирующая десять тысяч разыгрышей (около миллиона позиций) за ход.[110]

Несколько CNN для выбора ходов («политическая сеть») и оценки позиций («сеть ценностей»), управляющих MCTS, использовались AlphaGo, первым победившим лучшего игрока-человека того времени.[111]

Прогнозирование временных рядов

Рекуррентные нейронные сети обычно считаются лучшими архитектурами нейронных сетей для прогнозирования временных рядов (и моделирования последовательностей в целом), но недавние исследования показывают, что сверточные сети могут работать сопоставимо или даже лучше.[112][7] Расширенные извилины[113] может позволить одномерным сверточным нейронным сетям эффективно изучать зависимости временных рядов.[114] Свертки могут быть реализованы более эффективно, чем решения на основе RNN, и они не страдают от исчезающих (или взрывных) градиентов.[115] Сверточные сети могут обеспечить улучшенную производительность прогнозирования, когда есть несколько похожих временных рядов, на которых можно учиться.[116] CNN также могут применяться для решения других задач анализа временных рядов (например, классификация временных рядов).[117] или квантильное прогнозирование[118]).

Культурное наследие и 3D-наборы данных

Как археологические находки вроде глиняные таблички с клинопись все чаще приобретаются с использованием 3D сканеры первые наборы данных тестов становятся доступными, например HeiCuBeDa[119] предоставляет почти 2.000 нормализованных 2D- и 3D-наборов данных, подготовленных с помощью Программный фреймворк GigaMesh.[120] Так кривизна меры на основе используются вместе с геометрическими нейронными сетями (GNN), например для классификации периода этих глиняных табличек, являющихся одними из самых старых документов истории человечества.[121][122]

Тонкая настройка

Для многих приложений данные обучения менее доступны. Сверточным нейронным сетям обычно требуется большой объем обучающих данных, чтобы избежать переоснащение. Распространенным методом является обучение сети на большом наборе данных из связанного домена. После того, как параметры сети сойдутся, выполняется дополнительный этап обучения с использованием данных в домене для точной настройки весов сети. Это позволяет успешно применять сверточные сети для решения задач с небольшими обучающими наборами.[123]

Интерпретируемые человеческие объяснения

Сквозное обучение и прогнозирование - обычная практика в компьютерное зрение. Однако для критические системы например, беспилотные автомобили.[124] С последними достижениями в визуальная заметность, пространственный и временное внимание наиболее важные пространственные области / временные моменты могут быть визуализированы, чтобы оправдать прогнозы CNN.[125][126]

Связанные архитектуры

Глубокие Q-сети

Глубокая Q-сеть (DQN) - это тип модели глубокого обучения, сочетающий глубокую нейронную сеть с Q-обучение, форма обучение с подкреплением. В отличие от более ранних агентов обучения с подкреплением, DQN, использующие CNN, могут учиться непосредственно из многомерных сенсорных входов посредством обучения с подкреплением.[127]

Предварительные результаты были представлены в 2014 году с сопроводительным документом в феврале 2015 года.[128] В исследовании описывается приложение к Atari 2600 игры. Ему предшествовали другие модели глубокого обучения с подкреплением.[129]

Сети глубоких убеждений

Сверточные сети глубоких убеждений (CDBN) имеют структуру, очень похожую на сверточные нейронные сети, и обучаются так же, как сети глубоких убеждений.Поэтому они используют 2D-структуру изображений, как это делают CNN, и используют предварительное обучение, например сети глубоких убеждений. Они обеспечивают общую структуру, которую можно использовать во многих задачах обработки изображений и сигналов. Результаты тестов для стандартных наборов данных изображений, таких как CIFAR[130] были получены с использованием CDBN.[131]

Известные библиотеки

  • Кафе: Библиотека сверточных нейронных сетей. Создано Berkeley Vision and Learning Center (BVLC). Он поддерживает как CPU, так и GPU. Разработано в C ++, и имеет Python и MATLAB обертки.
  • Deeplearning4j: Глубокое обучение в Ява и Scala на мульти-GPU с поддержкой Искра. Универсальная библиотека глубокого обучения для производственного стека JVM, работающая на механизме научных вычислений C ++. Позволяет создавать собственные слои. Интегрируется с Hadoop и Kafka.
  • Длиб: Набор инструментов для создания реальных приложений машинного обучения и анализа данных на C ++.
  • Microsoft Cognitive Toolkit: Набор инструментов для глубокого обучения, написанный Microsoft, с несколькими уникальными функциями, повышающими масштабируемость на нескольких узлах. Он поддерживает полноценные интерфейсы для обучения на C ++ и Python и с дополнительной поддержкой вывода модели в C # и Java.
  • TensorFlow: Apache 2.0 -лицензионная библиотека типа Theano с поддержкой CPU, GPU, проприетарной системы Google блок обработки тензора (ТПУ),[132] и мобильные устройства.
  • Theano: Эталонная библиотека глубокого обучения для Python с API, в значительной степени совместимая с популярными NumPy библиотека. Позволяет пользователю писать символьные математические выражения, а затем автоматически генерировать их производные, избавляя пользователя от необходимости кодировать градиенты или обратное распространение. Эти символьные выражения автоматически компилируются в CUDA код для быстрого, на GPU выполнение.
  • Факел: А научные вычисления фреймворк с широкой поддержкой алгоритмов машинного обучения, написанный на C и Lua. Главный автор - Ронан Коллобер, и теперь он используется в Facebook AI Research и Twitter.

Известные API

Смотрите также

Примечания

  1. ^ При применении к другим типам данных, кроме данных изображения, таким как звуковые данные, «пространственное положение» может по-разному соответствовать разным точкам в область времени, частотная область или другой математические пространства.
  2. ^ отсюда и название "сверточный слой"
  3. ^ Так называемый категориальные данные.

Рекомендации

  1. ^ Валуева, М.В .; Нагорнов, Н.Н .; Ляхов, П.А .; Валуев, Г.В .; Червяков, Н. (2020). «Применение системы счисления остатков для снижения затрат на оборудование для реализации сверточной нейронной сети». Математика и компьютеры в моделировании. Elsevier BV. 177: 232–243. Дои:10.1016 / j.matcom.2020.04.031. ISSN  0378-4754. Сверточные нейронные сети - перспективный инструмент для решения задачи распознавания образов.
  2. ^ а б Чжан, Вэй (1988). «Нейронная сеть распознавания образов с инвариантным сдвигом и ее оптическая архитектура». Материалы ежегодной конференции Японского общества прикладной физики.
  3. ^ а б Чжан, Вэй (1990). «Модель параллельной распределенной обработки с локальными пространственно-инвариантными взаимосвязями и ее оптическая архитектура». Прикладная оптика. 29 (32): 4790–7. Bibcode:1990ApOpt..29.4790Z. Дои:10.1364 / AO.29.004790. PMID  20577468.
  4. ^ ван ден Оорд, Аарон; Дилеман, Сандер; Шраувен, Бенджамин (01.01.2013). Burges, C.J.C .; Bottou, L .; Веллинг, М .; Ghahramani, Z .; Weinberger, K. Q. (ред.). Рекомендации по музыке на основе глубокого контента (PDF). Curran Associates, Inc., стр. 2643–2651.
  5. ^ Коллобер, Ронан; Уэстон, Джейсон (01.01.2008). Унифицированная архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением. Материалы 25-й Международной конференции по машинному обучению. ICML '08. Нью-Йорк, Нью-Йорк, США: ACM. С. 160–167. Дои:10.1145/1390156.1390177. ISBN  978-1-60558-205-4. S2CID  2617020.
  6. ^ Авилов, Алексей; Римбер, Себастьян; Попов, Антон; Бугрен, Лоран (июль 2020 г.). «Методы глубокого обучения для улучшения обнаружения интраоперационной осведомленности по электроэнцефалографическим сигналам». 2020 42-я ежегодная международная конференция IEEE Engineering in Medicine & Biology Society (EMBC). Монреаль, Квебек, Канада: IEEE. 2020: 142–145. Дои:10.1109 / EMBC44109.2020.9176228. ISBN  978-1-7281-1990-8. PMID  33017950. S2CID  221386616.
  7. ^ а б Цантэкидис, Авраам; Пассалис, Николаос; Тефас, Анастасиос; Канниайнен, Юхо; Габбуж, Монсеф; Иосифидис, Александрос (июль 2017 г.). «Прогнозирование цен на акции из книги лимитных заказов с использованием сверточных нейронных сетей». 2017 19-я конференция IEEE по бизнес-информатике (CBI). Салоники, Греция: IEEE: 7–12. Дои:10.1109 / CBI.2017.23. ISBN  978-1-5386-3035-8. S2CID  4950757.
  8. ^ а б c Фукусима, К. (2007). «Неокогнитрон». Scholarpedia. 2 (1): 1717. Bibcode:2007SchpJ ... 2.1717F. Дои:10.4249 / scholarpedia.1717.
  9. ^ а б Hubel, D. H .; Визель, Т. Н. (1968-03-01). «Рецептивные поля и функциональная архитектура полосатой коры головного мозга обезьян». Журнал физиологии. 195 (1): 215–243. Дои:10.1113 / jphysiol.1968.sp008455. ISSN  0022-3751. ЧВК  1557912. PMID  4966457.
  10. ^ а б Фукусима, Кунихико (1980). «Неокогнитрон: модель самоорганизующейся нейронной сети для механизма распознавания образов, не подверженного изменению положения» (PDF). Биологическая кибернетика. 36 (4): 193–202. Дои:10.1007 / BF00344251. PMID  7370364. S2CID  206775608. Получено 16 ноября 2013.
  11. ^ а б Матусугу, Масакадзу; Кацухико Мори; Юсуке Митари; Юджи Канеда (2003). «Распознавание выражения лица независимо от субъекта с надежным распознаванием лиц с использованием сверточной нейронной сети» (PDF). Нейронные сети. 16 (5): 555–559. Дои:10.1016 / S0893-6080 (03) 00115-1. PMID  12850007. Получено 17 ноября 2013.
  12. ^ Ян Гудфеллоу, Йошуа Бенжио и Аарон Курвиль (2016). Глубокое обучение. MIT Press. п. 326.
  13. ^ «Сверточные нейронные сети (LeNet) - документация DeepLearning 0.1». DeepLearning 0.1. LISA Lab. Получено 31 августа 2013.
  14. ^ Хабиби, Агдам, Хамед (30.05.2017). Руководство по сверточным нейронным сетям: практическое применение для обнаружения и классификации дорожных знаков. Херави, Эльназ Джахани. Чам, Швейцария. ISBN  9783319575490. OCLC  987790957.
  15. ^ Венкатесан, Рагав; Ли, Баосин (2017-10-23). Сверточные нейронные сети в визуальных вычислениях: краткое руководство. CRC Press. ISBN  978-1-351-65032-8.
  16. ^ Балас, Валентина Е .; Кумар, Рагвендра; Шривастава, Раджшри (19.11.2019). Последние тенденции и достижения в области искусственного интеллекта и Интернета вещей. Springer Nature. ISBN  978-3-030-32644-9.
  17. ^ а б c Чиресан, Дан; Ули Мейер; Джонатан Маши; Лука М. Гамбарделла; Юрген Шмидхубер (2011). «Гибкие, высокопроизводительные сверточные нейронные сети для классификации изображений» (PDF). Труды двадцать второй международной совместной конференции по искусственному интеллекту - Том второй. 2: 1237–1242. Получено 17 ноября 2013.
  18. ^ Крижевский, Алекс. «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF). Получено 17 ноября 2013.
  19. ^ а б Ямагути, Коити; Сакамото, Кендзи; Акабане, Тошио; Фудзимото, Ёсидзи (ноябрь 1990 г.). Нейронная сеть для независимого от говорящего изолированного распознавания слов. Первая международная конференция по обработке разговорной речи (ICSLP 90). Кобе, Япония.
  20. ^ а б c d Чиресан, Дан; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). Многоколоночные глубокие нейронные сети для классификации изображений. Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике (IEEE). С. 3642–3649. arXiv:1202.2745. CiteSeerX  10.1.1.300.3283. Дои:10.1109 / CVPR.2012.6248110. ISBN  978-1-4673-1226-4. OCLC  812295155. S2CID  2161592.
  21. ^ "Обзор ускорителей на базе FPGA для сверточных нейронных сетей ", NCAA, 2018
  22. ^ ЛеКун, Янн. «LeNet-5, сверточные нейронные сети». Получено 16 ноября 2013.
  23. ^ а б Hubel, DH; Визель, Теннесси (октябрь 1959 г.). «Рецептивные поля отдельных нейронов в полосатой коре головного мозга кошки». J. Physiol. 148 (3): 574–91. Дои:10.1113 / jphysiol.1959.sp006308. ЧВК  1363130. PMID  14403679.
  24. ^ Дэвид Хьюбел и Торстен Н. Визель (2005). Мозг и визуальное восприятие: история 25-летнего сотрудничества. Oxford University Press, США. п. 106. ISBN  978-0-19-517618-6.
  25. ^ ЛеКун, Янн; Бенхио, Йошуа; Хинтон, Джеффри (2015). «Глубокое обучение». Природа. 521 (7553): 436–444. Bibcode:2015Натура.521..436L. Дои:10.1038 / природа14539. PMID  26017442. S2CID  3074096.
  26. ^ Weng, J; Ахуджа, N; Хуанг, Т.С. (1993). «Обучение распознаванию и сегментации трехмерных объектов из двухмерных изображений». Proc. 4-я Международная конф. Компьютерное зрение: 121–128. Дои:10.1109 / ICCV.1993.378228. ISBN  0-8186-3870-2. S2CID  8619176.
  27. ^ а б c Шмидхубер, Юрген (2015). «Глубокое обучение». Scholarpedia. 10 (11): 1527–54. CiteSeerX  10.1.1.76.1541. Дои:10.1162 / neco.2006.18.7.1527. PMID  16764513. S2CID  2309950.
  28. ^ Хомма, Тошитеру; Les Atlas; Роберт Маркс II (1988). «Искусственная нейронная сеть для пространственно-временных биполярных паттернов: приложение к классификации фонем» (PDF). Достижения в системах обработки нейронной информации. 1: 31–40.
  29. ^ а б Вайбель, Алекс (декабрь 1987). Распознавание фонем с использованием нейронных сетей с временной задержкой. Встреча Института инженеров электротехники, информации и связи (IEICE). Токио, Япония.
  30. ^ а б Александр Вайбель и другие., Распознавание фонем с использованием нейронных сетей с временной задержкой IEEE Transactions по акустике, речи и обработке сигналов, том 37, № 3, стр. 328. - 339 марта 1989 г.
  31. ^ ЛеКун, Янн; Бенхио, Йошуа (1995). «Сверточные сети для изображений, речи и временных рядов». В Арбибе Майкл А. (ред.). Справочник по теории мозга и нейронным сетям (Второе изд.). Пресса Массачусетского технологического института. С. 276–278.
  32. ^ Джон Б. Хэмпшир и Александр Вайбел, Коннекционистские архитектуры для распознавания фонем с несколькими динамиками, Достижения в системах обработки нейронной информации, 1990, Морган Кауфманн.
  33. ^ а б Ле Калле, Патрик; Кристиан Виар-Годен; Доминик Барба (2006). «Подход сверточной нейронной сети для объективной оценки качества видео» (PDF). IEEE-транзакции в нейронных сетях. 17 (5): 1316–1327. Дои:10.1109 / TNN.2006.879766. PMID  17001990. S2CID  221185563. Получено 17 ноября 2013.
  34. ^ Ко, Том; Педдинти, Виджаядитья; Пови, Даниэль; Зельцер, Майкл Л .; Худанпур, Санджив (март 2018 г.). Исследование увеличения данных реверберирующей речи для надежного распознавания речи (PDF). 42-я Международная конференция IEEE по акустике, обработке речи и сигналов (ICASSP 2017). Новый Орлеан, Лос-Анджелес, США.
  35. ^ Денкер, Дж. С., Гарднер, У. Р., Граф, Х. П., Хендерсон, Д., Ховард, Р. Э., Хаббард, В., Джекел, Л. Д., Бэрд, Х. С., и Гайон (1989) Распознаватель нейронной сети для рукописных цифр почтового индекса, AT&T Bell Laboratories
  36. ^ а б Ю. ЛеКун, Б. Бозер, Дж. С. Денкер, Д. Хендерсон, Р. Э. Ховард, У. Хаббард, Л. Д. Джекель, Обратное распространение, применяемое для распознавания рукописного почтового индекса; AT&T Bell Laboratories
  37. ^ ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение применительно к распознаванию документов» (PDF). Труды IEEE. 86 (11): 2278–2324. CiteSeerX  10.1.1.32.9552. Дои:10.1109/5.726791. Получено 7 октября, 2016.
  38. ^ Чжан, Вэй (1991). "Обратное распространение ошибок с минимальными весами энтропии: метод для лучшего обобщения двумерных инвариантных к сдвигу НС". Труды международной совместной конференции по нейронным сетям..
  39. ^ Чжан, Вэй (1991). «Обработка изображений эндотелия роговицы человека на основе обучающей сети». Прикладная оптика. 30 (29): 4211–7. Bibcode:1991ApOpt..30.4211Z. Дои:10.1364 / AO.30.004211. PMID  20706526.
  40. ^ Чжан, Вэй (1994). «Компьютеризированное обнаружение кластерных микрокальцификаций на цифровых маммограммах с использованием искусственной нейронной сети, инвариантной к сдвигу». Медицинская физика. 21 (4): 517–24. Bibcode:1994МедФ..21..517З. Дои:10.1118/1.597177. PMID  8058017.
  41. ^ Даниэль Грауп, Руэй Вен Лю, Джордж С. Мощиц ".Применение нейронных сетей для обработки медицинских сигналов ". In Proc. 27th IEEE Decision and Control Conf., Pp. 343–347, 1988.
  42. ^ Даниэль Грауп, Борис Верн, Г. Грюнер, Аарон Филд и Цю Хуанг. "Разложение сигналов поверхностной ЭМГ на потенциалы действия отдельных волокон с помощью нейронной сети ". Proc. IEEE International Symp. On Circuits and Systems, pp. 1008–1011, 1989.
  43. ^ Цю Хуан, Даниэль Грауп, И Фан Хуанг, Руй Вэнь Лю ".Идентификация паттернов возбуждения нейронных сигналов. "In Proc. 28th IEEE Decision and Control Conf., Pp. 266–271, 1989.
  44. ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений (PDF). Конспект лекций по информатике. 2766. Springer. Дои:10.1007 / b11963. ISBN  978-3-540-40722-5. S2CID  1304548.
  45. ^ Ой, KS; Юнг, К. (2004). «Реализация нейронных сетей на GPU». Распознавание образов. 37 (6): 1311–1314. Дои:10.1016 / j.patcog.2004.01.013.
  46. ^ Дэйв Стейнкраус; Патрис Симард; Ян Бак (2005). «Использование графических процессоров для алгоритмов машинного обучения». 12-я Международная конференция по анализу и распознаванию документов (ICDAR 2005). С. 1115–1119.
  47. ^ Кумар Челлапилла; Сид Пури; Патрис Симард (2006). «Высокопроизводительные сверточные нейронные сети для обработки документов». В Лоретте, Гай (ред.). Десятый международный семинар по вопросам распознавания почерка. Suvisoft.
  48. ^ Хинтон, GE; Осиндеро, С; Тех, YW (июль 2006 г.). «Алгоритм быстрого обучения для сетей глубоких убеждений». Нейронные вычисления. 18 (7): 1527–54. CiteSeerX  10.1.1.76.1541. Дои:10.1162 / neco.2006.18.7.1527. PMID  16764513. S2CID  2309950.
  49. ^ Бенхио, Йошуа; Ламблин, Паскаль; Поповичи, Дан; Ларошель, Хьюго (2007). «Жадное послойное обучение глубоких сетей» (PDF). Достижения в системах обработки нейронной информации: 153–160.
  50. ^ Ранзато, Марк Аурелио; Поултни, Кристофер; Чопра, Сумит; ЛеКун, Янн (2007). «Эффективное изучение разреженных представлений с помощью модели, основанной на энергии» (PDF). Достижения в системах обработки нейронной информации.
  51. ^ Raina, R; Мадхаван, А; Нг, Эндрю (2009). «Масштабное глубокое обучение без учителя с использованием графических процессоров» (PDF). ICML: 873–880.
  52. ^ Чиресан, Дан; Мейер, Ули; Гамбарделла, Лука; Шмидхубер, Юрген (2010). «Глубокие большие простые нейронные сети для распознавания рукописных цифр». Нейронные вычисления. 22 (12): 3207–3220. arXiv:1003.0358. Дои:10.1162 / NECO_a_00052. PMID  20858131. S2CID  1918673.
  53. ^ «Таблица результатов конкурса IJCNN 2011». ОФИЦИАЛЬНЫЙ КОНКУРС IJCNN2011. 2010. Получено 2019-01-14.
  54. ^ Шмидхубер, Юрген (17 марта 2017 г.). «История соревнований по компьютерному зрению, выигранных глубокими CNN на GPU». Получено 14 января 2019.
  55. ^ а б Крижевский, Алексей; Суцкевер, Илья; Хинтон, Джеффри Э. (24 мая 2017 г.). «Классификация ImageNet с глубокими сверточными нейронными сетями» (PDF). Коммуникации ACM. 60 (6): 84–90. Дои:10.1145/3065386. ISSN  0001-0782. S2CID  195908774.
  56. ^ Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2016). «Глубокое остаточное обучение для распознавания изображений» (PDF). Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2016 г.: 770–778. arXiv:1512.03385. Дои:10.1109 / CVPR.2016.90. ISBN  978-1-4673-8851-1. S2CID  206594692.
  57. ^ Вибке, Андре; Пллана, Сабри (2015). «Возможности Intel (R) Xeon Phi для контролируемого глубокого обучения». 17-я Международная конференция IEEE по высокопроизводительным вычислениям и коммуникациям 2015 г., 7-й Международный симпозиум IEEE 2015 г. по безопасности и защите киберпространства и 12-я Международная конференция IEEE 2015 г. по встроенному ПО и системам. IEEE Xplore. IEEE 2015. С. 758–765. Дои:10.1109 / HPCC-CSS-ICESS.2015.45. ISBN  978-1-4799-8937-9. S2CID  15411954.
  58. ^ Вибке, Андре; Мемети, Суэйб; Пллана, Сабри; Авраам, Аджит (2019). «CHAOS: схема распараллеливания для обучения сверточных нейронных сетей на Intel Xeon Phi». Журнал суперкомпьютеров. 75 (1): 197–227. arXiv:1702.07908. Дои:10.1007 / s11227-017-1994-х. S2CID  14135321.
  59. ^ а б c Жерон, Орелиен (2019). Практическое машинное обучение с помощью Scikit-Learn, Keras и TensorFlow. Севастополь, Калифорния: O'Reilly Media. ISBN  978-1-492-03264-9., стр.448
  60. ^ «Сверточные нейронные сети CS231n для визуального распознавания». cs231n.github.io. Получено 2017-04-25.
  61. ^ а б Шерер, Доминик; Мюллер, Андреас С .; Бенке, Свен (2010). «Оценка операций объединения в сверточные архитектуры для распознавания объектов» (PDF). Искусственные нейронные сети (ICANN), 20-я Международная конференция по. Салоники, Греция: Springer. С. 92–101.
  62. ^ Грэм, Бенджамин (18 декабря 2014 г.). «Дробное максимальное объединение». arXiv:1412.6071 [cs.CV ].
  63. ^ Спрингенберг, Йост Тобиас; Досовицкий, Алексей; Брокс, Томас; Ридмиллер, Мартин (21 декабря 2014 г.). «Стремление к простоте: вся сверточная сеть». arXiv:1412.6806 [cs.LG ].
  64. ^ Грель, Томаш (28.02.2017). "Объяснение объединения интересов". deepsense.io.
  65. ^ Гиршик, Росс (27.09.2015). «Быстрый R-CNN». arXiv:1504.08083 [cs.CV ].
  66. ^ Романуке, Вадим (2017). «Соответствующее количество и распределение ReLU в сверточных нейронных сетях». Вестник НТУУ «Киевский политехнический институт». 1: 69–78. Дои:10.20535/1810-0546.2017.1.88156.
  67. ^ Крижевский, А .; Суцкевер, И .; Хинтон, Г. Э. (2012). «Классификация Imagenet с глубокими сверточными нейронными сетями» (PDF). Достижения в системах обработки нейронной информации. 1: 1097–1105.
  68. ^ Дешпанде, Штольн. «9 статей по глубокому обучению, о которых вам нужно знать (понимание CNN, часть 3)». adeshpande3.github.io. Получено 2018-12-04.
  69. ^ Шривастава, Нитиш; К. Джеффри Хинтон; Алексей Крижевский; Илья Суцкевер; Руслан Салахутдинов (2014). «Отсев: простой способ предотвратить переоснащение нейронных сетей» (PDF). Журнал исследований в области машинного обучения. 15 (1): 1929–1958.
  70. ^ Карлос Э. Перес. "Образец языка для глубокого обучения".
  71. ^ «Регуляризация нейронных сетей с помощью DropConnect | ICML 2013 | JMLR W&CP». jmlr.org: 1058–1066. 2013-02-13. Получено 2015-12-17.
  72. ^ Цайлер, Мэтью Д.; Фергус, Роб (2013-01-15). «Стохастический пул для регуляризации глубоких сверточных нейронных сетей». arXiv:1301.3557 [cs.LG ].
  73. ^ а б Платт, Джон; Стейнкраус, Дэйв; Симард, Патрис Ю. (август 2003 г.). «Лучшие практики сверточных нейронных сетей, применяемые для визуального анализа документов - исследования Microsoft». Microsoft Research. Получено 2015-12-17.
  74. ^ Хинтон, Джеффри Э .; Шривастава, Нитиш; Крижевский, Алексей; Суцкевер, Илья; Салахутдинов, Руслан Р. (2012). «Улучшение нейронных сетей путем предотвращения совместной адаптации детекторов функций». arXiv:1207.0580 [cs.NE ].
  75. ^ «Отсев: простой способ предотвратить переоснащение нейронных сетей». jmlr.org. Получено 2015-12-17.
  76. ^ Хинтон, Джеффри (1979). «Некоторые демонстрации эффектов структурных описаний в мысленных образах». Наука о мышлении. 3 (3): 231–250. Дои:10.1016 / s0364-0213 (79) 80008-7.
  77. ^ Рок, Ирвин. «Система отсчета». Наследие Соломона Аша: Очерки познания и социальной психологии (1990): 243–268.
  78. ^ Дж. Хинтон, Лекции Coursera по нейронным сетям, 2012 г., URL: https://www.coursera.org/learn/neural-networks В архиве 2016-12-31 в Wayback Machine
  79. ^ Дэйв Гершгорн (18 июня 2018 г.). «Внутренняя история того, как ИИ стал достаточно хорош, чтобы доминировать в Кремниевой долине». Кварцевый. Получено 5 октября 2018.
  80. ^ Лоуренс, Стив; К. Ли Джайлз; А Чунг Цой; Эндрю Д. Бэк (1997). «Распознавание лиц: подход сверточной нейронной сети». IEEE-транзакции в нейронных сетях. 8 (1): 98–113. CiteSeerX  10.1.1.92.5813. Дои:10.1109/72.554195. PMID  18255614.
  81. ^ «Конкурс крупномасштабного визуального распознавания ImageNet 2014 (ILSVRC2014)». Получено 30 января 2016.
  82. ^ Сегеди, Кристиан; Лю, Вэй; Цзя, Янцин; Сермане, Пьер; Рид, Скотт; Ангуелов, Драгомир; Эрхан, Думитру; Ванхаук, Винсент; Рабинович, Андрей (2014). "Углубляясь в свертки". Репозиторий компьютерных исследований. arXiv:1409.4842. Bibcode:2014arXiv1409.4842S.
  83. ^ Русаковский Ольга; Дэн, Цзя; Су, Хао; Краузе, Джонатан; Сатиш, Санджив; Ма, Шон; Хуанг, Чжихэн; Карпаты, Андрей; Хосла, Адитья; Бернштейн, Майкл; Берг, Александр С .; Фэй-Фэй, Ли (2014). "Изображение Сеть Крупномасштабная проблема визуального распознавания ». arXiv:1409.0575 [cs.CV ].
  84. ^ «Алгоритм распознавания лиц революционизирует поиск изображений». Обзор технологий. 16 февраля 2015 г.. Получено 27 октября 2017.
  85. ^ Баккуш, Моэз; Мамалет, Франк; Вольф, Кристиан; Гарсия, Кристоф; Баскурт, Атилла (16 ноября 2011 г.). «Последовательное глубокое обучение для распознавания действий человека». В Салахе Альберт Али; Лепри, Бруно (ред.). Непонимание человеческого поведения. Конспект лекций по информатике. 7065. Springer Berlin Heidelberg. С. 29–39. CiteSeerX  10.1.1.385.4740. Дои:10.1007/978-3-642-25446-8_4. ISBN  978-3-642-25445-1.
  86. ^ Цзи, Шуйван; Сюй, Вэй; Ян, Мин; Ю, Кай (01.01.2013). «Трехмерные сверточные нейронные сети для распознавания действий человека». IEEE Transactions по анализу шаблонов и машинному анализу. 35 (1): 221–231. CiteSeerX  10.1.1.169.4046. Дои:10.1109 / TPAMI.2012.59. ISSN  0162-8828. PMID  22392705. S2CID  1923924.
  87. ^ Хуанг, Цзе; Чжоу, Венган; Чжан, Цилинь; Ли, Хоуцян; Ли, Вэйпин (2018). «Распознавание жестового языка на основе видео без временной сегментации». arXiv:1801.10111 [cs.CV ].
  88. ^ Карпаты, Андрей и др. "Классификация крупномасштабных видео с помощью сверточных нейронных сетей. »Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR). 2014.
  89. ^ Симонян, Карен; Зиссерман, Андрей (2014). «Двухпотоковые сверточные сети для распознавания действий в видео». arXiv:1406.2199 [cs.CV ]. (2014).
  90. ^ Ван, Ле; Дуань, Сюйхуань; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (22.05.2018). «Сегмент-трубка: пространственно-временная локализация действия в видео без обрезки с покадровой сегментацией» (PDF). Датчики. 18 (5): 1657. Дои:10,3390 / с18051657. ISSN  1424-8220. ЧВК  5982167. PMID  29789447.
  91. ^ Дуань, Сюйхуань; Ван, Ле; Чжай, Чанбо; Чжэн, Наньнин; Чжан, Цилинь; Ню, Чжэньсин; Хуа, Банда (2018). Совместная пространственно-временная локализация действий в видео без обрезки с покадровой сегментацией. 25-я Международная конференция IEEE по обработке изображений (ICIP). Дои:10.1109 / icip.2018.8451692. ISBN  978-1-4799-7061-2.
  92. ^ Тейлор, Грэм В .; Фергус, Роб; ЛеКун, Янн; Бреглер, Кристоф (01.01.2010). Сверточное изучение пространственно-временных характеристик. Материалы 11-й Европейской конференции по компьютерному зрению: Часть VI. ECCV'10. Берлин, Гейдельберг: Springer-Verlag. С. 140–153. ISBN  978-3-642-15566-6.
  93. ^ Le, Q. V .; Zou, W. Y .; Yeung, S. Y .; Нг, А. Я. (01.01.2011). Изучение иерархических инвариантных пространственно-временных функций для распознавания действий с помощью независимого анализа подпространств. Материалы конференции IEEE 2011 года по компьютерному зрению и распознаванию образов. CVPR '11. Вашингтон, округ Колумбия, США: Компьютерное общество IEEE. С. 3361–3368. CiteSeerX  10.1.1.294.5948. Дои:10.1109 / CVPR.2011.5995496. ISBN  978-1-4577-0394-2. S2CID  6006618.
  94. ^ Грефенстетт, Эдвард; Блансом, Фил; де Фрейтас, Нандо; Германн, Карл Мориц (2014-04-29). «Глубокая архитектура для семантического анализа». arXiv:1404.7296 [cs.CL ].
  95. ^ Меснил, Грегуар; Дэн Ли; Гао, Цзяньфэн; Он, Сяодун; Шен, Йелонг (апрель 2014 г.). «Изучение семантических представлений с использованием сверточных нейронных сетей для веб-поиска - исследования Microsoft». Microsoft Research. Получено 2015-12-17.
  96. ^ Кальхбреннер, Нал; Грефенстетт, Эдвард; Блансом, Фил (2014-04-08). «Сверточная нейронная сеть для моделирования предложений». arXiv:1404.2188 [cs.CL ].
  97. ^ Ким, Юн (2014-08-25). «Сверточные нейронные сети для классификации предложений». arXiv:1408.5882 [cs.CL ].
  98. ^ Коллобер, Ронан и Джейсон Уэстон. "Унифицированная архитектура для обработки естественного языка: глубокие нейронные сети с многозадачным обучением. »Материалы 25-й международной конференции по машинному обучению. ACM, 2008.
  99. ^ Коллобер, Ронан; Уэстон, Джейсон; Ботту, Леон; Карлен, Майкл; Кавукчуоглу, Корай; Кукса, Павел (02.03.2011). «Обработка естественного языка (почти) с нуля». arXiv:1103.0398 [cs.LG ].
  100. ^ Рен, Ханьшэн; Сюй, Биксюн; Ван, Юйцзин; Йи, Чао; Хуанг, Конгруи; Коу, Сяоюй; Син, Тони; Ян, Мао; Тонг, Джи; Чжан, Ци (2019). «Служба обнаружения аномалий временных рядов в Microsoft | Материалы 25-й Международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных». arXiv:1906.03821. Дои:10.1145/3292500.3330680. S2CID  182952311. Цитировать журнал требует | журнал = (помощь)
  101. ^ Валлах, Ижар; Дзамба, Майкл; Хейфец, Авраам (09.10.2015). «AtomNet: глубокая сверточная нейронная сеть для прогнозирования биоактивности при открытии лекарств на основе структуры». arXiv:1510.02855 [cs.LG ].
  102. ^ Йосинский, Джейсон; Клун, Джефф; Нгуен, Ань; Фукс, Томас; Липсон, Ход (2015-06-22). «Понимание нейронных сетей посредством глубокой визуализации». arXiv:1506.06579 [cs.CV ].
  103. ^ «У стартапа из Торонто есть более быстрый способ открывать эффективные лекарства». Глобус и почта. Получено 2015-11-09.
  104. ^ "Стартап использует суперкомпьютеры в поисках лекарств". KQED Future of You. 2015-05-27. Получено 2015-11-09.
  105. ^ Тим Пырков; Константин Слипенский; Михаил Барг; Алексей Кондрашин; Борис Журов; Александр Зенин; Михаил Пятницкий; Леонид Меньшиков; Сергей Марков; Петр Олегович Федичев (2018). «Извлечение биологического возраста из биомедицинских данных с помощью глубокого обучения: слишком много хорошего?». Научные отчеты. 8 (1): 5210. Bibcode:2018НатСР ... 8.5210П. Дои:10.1038 / s41598-018-23534-9. ЧВК  5980076. PMID  29581467.
  106. ^ Chellapilla, K; Фогель, ДБ (1999). «Развитие нейронных сетей для игры в шашки, не полагаясь на экспертные знания». IEEE Trans Neural Netw. 10 (6): 1382–91. Дои:10.1109/72.809083. PMID  18252639.
  107. ^ Chellapilla, K .; Фогель, Д. (2001). «Разработка программы для игры в шашки без привлечения человеческого опыта». IEEE Transactions по эволюционным вычислениям. 5 (4): 422–428. Дои:10.1109/4235.942536.
  108. ^ Фогель, Дэвид (2001). Blondie24: Игра на грани ИИ. Сан-Франциско, Калифорния: Морган Кауфманн. ISBN  978-1558607835.
  109. ^ Кларк, Кристофер; Сторки, Амос (2014). «Обучение глубоких сверточных нейронных сетей игре в го». arXiv:1412.3409 [cs.AI ].
  110. ^ Мэддисон, Крис Дж .; Хуанг, Аджа; Суцкевер, Илья; Серебро, Дэвид (2014). «Оценка хода в Go с использованием глубоких сверточных нейронных сетей». arXiv:1412.6564 [cs.LG ].
  111. ^ «AlphaGo - Google DeepMind». Архивировано из оригинал 30 января 2016 г.. Получено 30 января 2016.
  112. ^ Бай, Шаоцзе; Колтер, Дж. Зико; Колтун, Владлен (19.04.2018). «Эмпирическая оценка общих сверточных и рекуррентных сетей для моделирования последовательности». arXiv:1803.01271 [cs.LG ].
  113. ^ Ю, Фишер; Колтун, Владлен (30.04.2016). «Мультимасштабное агрегирование контекста с помощью расширенных сверток». arXiv:1511.07122 [cs.CV ].
  114. ^ Боровых, Анастасия; Ботэ, Сандер; Остерли, Корнелис В. (17 сентября 2018 г.).«Условное прогнозирование временных рядов с помощью сверточных нейронных сетей». arXiv:1703.04691 [stat.ML ].
  115. ^ Миттельман, Рони (2015-08-03). «Моделирование временных рядов с недецимацией полностью сверточных нейронных сетей». arXiv:1508.00317 [stat.ML ].
  116. ^ Чен, Итиан; Кан, Яньфэй; Чен, Исюн; Ван, Цзычжуо (2019-06-11). «Вероятностное прогнозирование с помощью временной сверточной нейронной сети». arXiv:1906.04397 [stat.ML ].
  117. ^ Чжао, Бендун; Лу, Хуаньчжан; Чен, Шанфэн; Лю, Цзюньлянь; У, Донъя (2017-02-01). «Сверточные нейронные сети для классов временных рядов». Журнал системной инженерии и электроники. 28 (1): 162–169. Дои:10.21629 / JSEE.2017.01.18.
  118. ^ Петнехази, Габор (21.08.2019). «QCNN: квантильная сверточная нейронная сеть». arXiv:1908.07978 [cs.LG ].
  119. ^ Хуберт Мара (2019-06-07), HeiCuBeDa Hilprecht - набор данных Heidelberg Cuneiform Benchmark для коллекции Hilprecht (на немецком языке), heiDATA - институциональный репозиторий исследовательских данных Гейдельбергского университета, Дои:10.11588 / данные / IE8CCN
  120. ^ Хуберт Мара и Бартош Богач (2019), «Взлом кода на сломанных планшетах: задача изучения аннотированного клинописи в нормализованных наборах данных 2D и 3D», Материалы 15-й Международной конференции по анализу и распознаванию документов (ICDAR) (на немецком языке), Сидней, Австралия, стр. 148–153, Дои:10.1109 / ICDAR.2019.00032, ISBN  978-1-7281-3014-9, S2CID  211026941
  121. ^ Богач, Бартош; Мара, Хуберт (2020), «Классификация по периодам трехмерных клинописных табличек с геометрическими нейронными сетями», Труды 17-й Международной конференции по границам распознавания почерка (ICFHR), Дортмунд, Германия
  122. ^ Презентация статьи ICFHR по периодической классификации трехмерных клинописных табличек с геометрическими нейронными сетями на YouTube
  123. ^ Дурджой Сен Майтра; Удджвал Бхаттачарья; С.К. Паруи, «Общий подход на основе CNN к распознаванию рукописных символов в нескольких сценариях», in Document Analysis and Recognition (ICDAR), 2015 13-я Международная конференция, том, №, стр. 1021–1025, 23–26 августа 2015 г.
  124. ^ «НИПС 2017». Симпозиум по интерпретируемому машинному обучению. 2017-10-20. Получено 2018-09-12.
  125. ^ Занг, Цзиньлян; Ван, Ле; Лю, Цзыи; Чжан, Цилинь; Хуа, банда; Чжэн, Наньнин (2018). «Сверточная нейронная сеть, основанная на внимании, взвешенная по времени для распознавания действий». Достижения ИФИП в области информационных и коммуникационных технологий. Чам: Издательство Springer International. С. 97–108. arXiv:1803.07179. Дои:10.1007/978-3-319-92007-8_9. ISBN  978-3-319-92006-1. ISSN  1868-4238. S2CID  4058889.
  126. ^ Ван, Ле; Занг, Цзиньлян; Чжан, Цилинь; Ню, Чжэньсин; Хуа, банда; Чжэн, Наньнин (21.06.2018). «Распознавание действий с помощью зависящей от внимания сверточной нейронной сети, взвешенной по времени» (PDF). Датчики. 18 (7): 1979. Дои:10,3390 / с18071979. ISSN  1424-8220. ЧВК  6069475. PMID  29933555.
  127. ^ Онг, Хао И; Чавес, Кевин; Хонг, Август (18.08.2015). «Распределенное глубокое Q-Learning». arXiv:1508.04186v2 [cs.LG ].
  128. ^ Мних, Владимир; и другие. (2015). «Контроль на уровне человека посредством глубокого обучения с подкреплением». Природа. 518 (7540): 529–533. Bibcode:2015Натура.518..529M. Дои:10.1038 / природа14236. PMID  25719670. S2CID  205242740.
  129. ^ Sun, R .; Сешнс, К. (июнь 2000 г.). «Самосегментация последовательностей: автоматическое формирование иерархий последовательного поведения». Транзакции IEEE по системам, человеку и кибернетике - Часть B: Кибернетика. 30 (3): 403–418. CiteSeerX  10.1.1.11.226. Дои:10.1109/3477.846230. ISSN  1083-4419. PMID  18252373.
  130. ^ "Сверточные сети глубокого убеждения на CIFAR-10" (PDF).
  131. ^ Ли, Хонглак; Гросс, Роджер; Ранганатх, Раджеш; Нг, Эндрю Ю. (1 января 2009 г.). Сверточные сети глубокого убеждения для масштабируемого неконтролируемого обучения иерархическим представлениям. Материалы 26-й ежегодной международной конференции по машинному обучению - ICML '09. ACM. С. 609–616. CiteSeerX  10.1.1.149.6800. Дои:10.1145/1553374.1553453. ISBN  9781605585161. S2CID  12008458.
  132. ^ Кейд Мец (18 мая 2016 г.). «Google создал свои собственные чипы для работы своих AI-ботов». Проводной.
  133. ^ "Документация Кераса". keras.io.

внешняя ссылка