Нейронное касательное ядро - Neural tangent kernel

При изучении искусственные нейронные сети (ИНС), касательное нейронное ядро (NTK) - это ядро который описывает эволюцию глубокие искусственные нейронные сети во время их обучения градиентный спуск. Это позволяет изучать ИНС с использованием теоретических инструментов из Методы ядра.

Для наиболее распространенных архитектур нейронных сетей в пределе большой ширины слоя NTK становится постоянным. Это позволяет простым закрытая форма утверждения, которые необходимо сделать о прогнозах нейронных сетей, динамике обучения, обобщении и поверхностях потерь. Например, это гарантирует, что достаточно широкие ИНС сходятся к глобальный минимум при обучении минимизировать эмпирические потери. NTK сетей большой ширины также связана с несколькими другими большие пределы ширины нейронных сетей.

NTK была представлена ​​в 2018 году компанией Артур Жако, Франк Габриэль и Клеман Хонглер.[1] Это также подразумевалось в некоторых произведениях того времени.[2][3][4]

Определение

Случай скалярного вывода

An Искусственная нейронная сеть (ИНС) со скалярным выходом состоит из семейства функций параметризованный вектором параметров .

Neural Tangent Kernel (NTK) - это ядро определяется

На языке методы ядра, НТК это ядро, связанное с карта характеристик .

Случай векторного вывода

ИНС с векторным выводом размера состоит из семейства функций параметризованный вектором параметров .

В этом случае нейронное касательное ядро это матричнозначное ядро, со значениями в пространстве матрицы, определяемые

Вывод

При оптимизации параметров ИНС, чтобы минимизировать эмпирические потери через градиентный спуск, NTK управляет динамикой функции вывода ИНС на протяжении всего обучения.

Случай скалярного вывода

Для набор данных со скалярными метками и функция потерь , связанные эмпирические потери, определенные на функциях , дан кем-то

При обучении ИНС обучен соответствовать набору данных (т.е. минимизировать ) с помощью градиентного спуска в непрерывном времени параметры развиваться через обыкновенное дифференциальное уравнение:

Во время обучения функция вывода ИНС следует эволюционному дифференциальному уравнению, заданному в терминах NTK:

Это уравнение показывает, как NTK управляет динамикой в пространстве функций во время тренировки.

Случай векторного вывода

Для набор данных с векторными этикетками и функция потерь , соответствующие эмпирические потери на функциях определяется

Обучение через градиентный спуск в непрерывном времени дает следующую эволюцию в функциональном пространстве, управляемую NTK:

Интерпретация

НТК представляет влияние градиента потерь относительно примера об эволюции выпуска ИНС через шаг градиентного спуска: в скалярном случае это читается как

В частности, каждая точка данных влияет на динамику выпуска для каждого на протяжении всего обучения способом, который фиксируется NTK .

Предел большой ширины

Недавние теоретические и эмпирические исследования в области глубокого обучения показали, что производительность ИНС резко улучшается по мере увеличения ширины их слоя.[5][6] Для различных Архитектуры ИНС, NTK дает точное представление об обучении в этом режиме большой ширины.[1][7][8][9][10][11]

Широкие полносвязные ИНС имеют детерминированный NTK, который остается постоянным на протяжении всего обучения.

Рассмотрим ИНС с полностью связанный слои ширины , так что , куда это состав аффинное преобразование с поточечным применением нелинейность , куда параметризует карты . Параметры инициализируются случайным образом, в независимые одинаково распределенные путь.

На масштаб NTK по мере увеличения ширины влияет точная параметризация и инициализацией параметров. Это мотивирует так называемую параметризацию NTK. . Эта параметризация гарантирует, что если параметры инициализируются как стандартные нормальные переменные, НТК имеет конечный нетривиальный предел. В пределе большой ширины NTK сходится к детерминированному (неслучайному) пределу , который остается неизменным во времени.

НТК явно задается , куда определяется системой рекурсивных уравнений:

куда обозначает ядро, определенное в терминах Гауссовское ожидание:

В этой формуле ядра так называемые ядра активации[12][13][14] ИНС.

Широкие полностью связанные сети линейны по своим параметрам на протяжении всего обучения.

NTK описывает эволюцию нейронных сетей при градиентном спуске в функциональном пространстве. Двойной с этой точки зрения является понимание того, как нейронные сети развиваются в пространстве параметров, поскольку NTK определяется в терминах градиента выходных данных ИНС по отношению к ее параметрам. В пределе бесконечной ширины связь между этими двумя перспективами становится особенно интересной. NTK, остающийся постоянным на протяжении всего обучения при большой ширине, совпадает с ИНС, хорошо описываемой на протяжении всего обучения ее расширением Тейлора первого порядка вокруг ее параметров при инициализации:[9]

Другие архитектуры

НТК можно изучать для различных Архитектуры ИНС[10], особенно Сверточные нейронные сети (CNN)[15], Рекуррентные нейронные сети (RNN), Трансформаторные нейронные сети.[16] В таких настройках ограничение большой ширины соответствует увеличению числа параметров при фиксированном количестве слоев: для CNN, это позволяет количеству каналов расти.

Приложения

Сходимость к глобальному минимуму

Для выпуклый функциональная потеря с глобальный минимум, если НТК остается положительно определенный во время обучения потеря ИНС сходится к этому минимуму как . Это свойство положительной определенности было продемонстрировано в ряде случаев, что дало первые доказательства того, что ИНС большой ширины сходятся к глобальным минимумам во время обучения.[1][7][17]

Методы ядра

NTK обеспечивает строгую связь между выводом, выполняемым ИНС бесконечной ширины, и выводом, выполняемым методы ядра: когда функция потерь является потеря наименьших квадратов, логический вывод, выполняемый ИНС, ожидается равным регрессия гребня ядра (с нулевым гребнем) относительно НТК . Это говорит о том, что производительность больших ИНС в параметризации NTK может быть воспроизведена с помощью методов ядра для надлежащим образом выбранных ядер.[1][10]

Программные библиотеки

Нейронные касательные это бесплатно и с открытым исходным кодом Python библиотека, используемая для вычислений и вывода с бесконечной шириной NTK и Гауссовский процесс нейронной сети (NNGP), соответствующие различным общим архитектурам ИНС.[18]

Рекомендации

  1. ^ а б c d Жако, Артур; Габриэль, Франк; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Грауман, К. (ред.), «Нейронное касательное ядро: сходимость и обобщение в нейронных сетях» (PDF), Достижения в системах обработки нейронной информации 31, Curran Associates, Inc., стр. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, получено 2019-11-27
  2. ^ Ли, Юаньчжи; Лян, Инъюй (2018). «Изучение сверхпараметризованных нейронных сетей с помощью стохастического градиентного спуска на структурированных данных». Достижения в системах обработки нейронной информации.
  3. ^ Аллен-Чжу, Зэюань; Ли, Юаньчжи; Песня, Чжао (2018). «Теория сходимости для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению.
  4. ^ Du, Simon S; Чжай, Сиюй; Почос, Варнава; Аарти, Сингх (2019). «Градиентный спуск доказуемо оптимизирует чрезмерно параметризованные нейронные сети». Международная конференция по обучающим представительствам.
  5. ^ Новак, Роман; Бахри, Ясаман; Abolafia, Daniel A .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование». arXiv:1802.08760. Bibcode:2018arXiv180208760N. Цитировать журнал требует | журнал = (помощь)
  6. ^ Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений». arXiv:1605.07678. Bibcode:2016arXiv160507678C. Цитировать журнал требует | журнал = (помощь)
  7. ^ а б Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-11-09). «Теория конвергенции для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению: 242–252. arXiv:1811.03962.
  8. ^ Ду, Саймон; Ли, Джейсон; Ли, Хаочуань; Ван, Ливэй; Чжай, Сиюй (24.05.2019). «Градиентный спуск находит глобальные минимумы глубоких нейронных сетей». Международная конференция по машинному обучению: 1675–1685. arXiv:1811.03804.
  9. ^ а б Ли, Джэхун; Сяо, Лехао; Schoenholz, Samuel S .; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (15.02.2018). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». arXiv:1902.06720. Цитировать журнал требует | журнал = (помощь)
  10. ^ а б c Арора, Санджив; Du, Simon S; Ху, Вэй; Ли, Чжиюань; Салахутдинов, Русь Р; Ван, Руосонг (2019), «О точных вычислениях с бесконечно широкой нейронной сетью», NeurIPS: 8139–8148, arXiv:1904.11955
  11. ^ Хуанг, Цзяоян; Яу, Хорнг-Цер (17.09.2019). «Динамика глубоких нейронных сетей и нейронная касательная иерархия». arXiv:1909.08156.
  12. ^ Чо, Ёнмин; Саул, Лоуренс К. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J.D .; Уильямс, К. К. И. (ред.), «Методы ядра для глубокого обучения» (PDF), Достижения в системах обработки нейронной информации 22, Curran Associates, Inc., стр. 342–350., получено 2019-11-27
  13. ^ Даниэли, Амит; Фростиг, Рой; Певица, Йорам (2016), Ли, Д. Д.; Sugiyama, M .; Люксбург, Вашингтон; Гийон, И. (ред.), «К более глубокому пониманию нейронных сетей: сила инициализации и двойной взгляд на выразительность» (PDF), Достижения в системах обработки нейронной информации 29, Curran Associates, Inc., стр. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, получено 2019-11-27
  14. ^ Ли, Джэхун; Бахри, Ясаман; Новак, Роман; Schoenholz, Samuel S .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Глубокие нейронные сети как гауссовские процессы». Цитировать журнал требует | журнал = (помощь)
  15. ^ Ян, Грег (13.02.2019). «Пределы масштабирования широких нейронных сетей с разделением веса: поведение гауссовского процесса, независимость от градиента и вывод нейронного касательного ядра». arXiv:1902.04760 [cs.NE ].
  16. ^ Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18.06.2020). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
  17. ^ Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-10-29). «О скорости сходимости обучающих рекуррентных нейронных сетей». NeurIPS. arXiv:1810.12065.
  18. ^ Новак, Роман; Сяо, Лехао; Хрон, Иржи; Ли, Джэхун; Alemi, Александр А .; Золь-Дикштейн, Яша; Шёнхольц, Самуэль С. (2019-12-05), "Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python", Международная конференция по обучающим представительствам (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N