Нейронное касательное ядро - Neural tangent kernel

При изучении искусственные нейронные сети (ИНС), касательное нейронное ядро (NTK) - это ядро который описывает эволюцию глубокие искусственные нейронные сети во время их обучения градиентный спуск. Это позволяет изучать ИНС с использованием теоретических инструментов из Методы ядра.

Для наиболее распространенных архитектур нейронных сетей в пределе большой ширины слоя NTK становится постоянным. Это позволяет простым закрытая форма утверждения, которые необходимо сделать о прогнозах нейронных сетей, динамике обучения, обобщении и поверхностях потерь. Например, это гарантирует, что достаточно широкие ИНС сходятся к глобальный минимум при обучении минимизировать эмпирические потери. NTK сетей большой ширины также связана с несколькими другими большие пределы ширины нейронных сетей.

NTK была представлена в 2018 году компанией Артур Жако, Франк Габриэль и Клеман Хонглер.^[1] Это также подразумевалось в некоторых произведениях того времени.^[2]^[3]^[4]

Определение

Случай скалярного вывода

An Искусственная нейронная сеть (ИНС) со скалярным выходом состоит из семейства функций ${ displaystyle f left ( cdot, theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ параметризованный вектором параметров ${ displaystyle theta in mathbb {R} ^ {P}}$ .

Neural Tangent Kernel (NTK) - это ядро ${ displaystyle Theta: mathbb {R} ^ {n _ { mathrm {in}}} times mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ определяется

{ displaystyle Theta left (x, y; theta right) = sum _ {p = 1} ^ {P} partial _ { theta _ {p}} f left (x; theta справа) partial _ { theta _ {p}} f left (y; theta right).}

На языке методы ядра, НТК

{ displaystyle Theta}

это ядро, связанное с карта характеристик

{ Displaystyle влево (х mapsto partial _ { theta _ {p}} е влево (х; theta right) right) _ {p = 1, ldots, P}}

.

Случай векторного вывода

ИНС с векторным выводом размера ${ displaystyle n _ { mathrm {out}}}$ состоит из семейства функций ${ displaystyle f left ( cdot; theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R} ^ {n _ { mathrm {out}}} }$ параметризованный вектором параметров ${ displaystyle theta in mathbb {R} ^ {P}}$ .

В этом случае нейронное касательное ядро ${ displaystyle Theta: mathbb {R} ^ {n _ { mathrm {in}}} times mathbb {R} ^ {n _ { mathrm {in}}} to { mathcal {M}} _ {п _ { mathrm {out}}} left ( mathbb {R} right)}$ это матричнозначное ядро, со значениями в пространстве ${ displaystyle n _ { mathrm {out}} times n _ { mathrm {out}}}$ матрицы, определяемые

{ displaystyle Theta _ {k, l} left (x, y; theta right) = sum _ {p = 1} ^ {P} partial _ { theta _ {p}} f_ {k } left (x; theta right) partial _ { theta _ {p}} f_ {l} left (y; theta right).}

Вывод

При оптимизации параметров ${ displaystyle theta in mathbb {R} ^ {P}}$ ИНС, чтобы минимизировать эмпирические потери через градиентный спуск, NTK управляет динамикой функции вывода ИНС ${ displaystyle f _ { theta}}$ на протяжении всего обучения.

Случай скалярного вывода

Для набор данных ${ displaystyle left (x_ {i} right) _ {i = 1, ldots, n} subset mathbb {R} ^ {n _ { mathrm {in}}}}$ со скалярными метками ${ displaystyle left (z_ {i} right) _ {i = 1, ldots, n} subset mathbb {R}}$ и функция потерь ${ Displaystyle c: mathbb {R} times mathbb {R} to mathbb {R}}$ , связанные эмпирические потери, определенные на функциях ${ displaystyle f: mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ , дан кем-то

{ displaystyle { mathcal {C}} left (f right) = sum _ {i = 1} ^ {n} c left (f left (x_ {i} right), z_ {i} верно).}

При обучении ИНС

{ displaystyle f left ( cdot; theta right): mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}

обучен соответствовать набору данных (т.е. минимизировать

{ Displaystyle { mathcal {C}}}

) с помощью градиентного спуска в непрерывном времени параметры

{ Displaystyle влево ( тета влево (т вправо) вправо) _ {т GEQ 0}}

развиваться через обыкновенное дифференциальное уравнение:

{ displaystyle partial _ {t} theta left (t right) = - nabla { mathcal {C}} left (f left ( cdot; theta right) right).}

Во время обучения функция вывода ИНС следует эволюционному дифференциальному уравнению, заданному в терминах NTK:

{ Displaystyle partial _ {t} е влево (х; тета влево (т вправо) вправо) = - сумма _ {я = 1} ^ {п} тета влево (х, х_ { i}; theta right) partial _ {w} c left (w, z_ {i} right) { Big |} _ {w = f left (x_ {i}; theta left ( t right) right)}.}

Это уравнение показывает, как NTK управляет динамикой ${ Displaystyle е влево ( CDOT; тета влево (т вправо) вправо)}$ в пространстве функций ${ Displaystyle mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R}}$ во время тренировки.

Случай векторного вывода

Для набор данных ${ displaystyle left (x_ {i} right) _ {i = 1, ldots, n} subset mathbb {R} ^ {n _ { mathrm {in}}}}$ с векторными этикетками ${ displaystyle left (z_ {i} right) _ {i = 1, ldots, n} subset mathbb {R} ^ {n _ { mathrm {out}}}}$ и функция потерь ${ displaystyle c: mathbb {R} ^ {n _ { mathrm {out}}} times mathbb {R} ^ {n _ { mathrm {out}}} to mathbb {R}}$ , соответствующие эмпирические потери на функциях ${ displaystyle f: mathbb {R} ^ {n _ { mathrm {in}}} to mathbb {R} ^ {n _ { mathrm {out}}}}$ определяется

{ displaystyle { mathcal {C}} left (f right) = sum _ {i = 1} ^ {n} c left (f left (x_ {i} right), z_ {i} верно).}

Обучение

{ Displaystyle е _ { тета влево (т вправо)}}

через градиентный спуск в непрерывном времени дает следующую эволюцию в функциональном пространстве, управляемую NTK:

{ displaystyle partial _ {t} f_ {k} left (x; theta left (t right) right) = - sum _ {i = 1} ^ {n} sum _ {l = 1} ^ {n _ { mathrm {out}}} Theta _ {k, l} left (x, x_ {i}; theta right) partial _ {w_ {l}} c left ( left (w_ {1}, ldots, w_ {n _ { mathrm {out}}} right), z_ {i} right) { Big |} _ {w = f left (x_ {i}; theta left (t right) right)}.}

Интерпретация

НТК ${ Displaystyle Theta left (x, x_ {i}; theta right)}$ представляет влияние градиента потерь ${ displaystyle partial _ {w} c left (w, z_ {i} right) { big |} _ {w = f left (x_ {i}; theta right)}}$ относительно примера ${ displaystyle i}$ об эволюции выпуска ИНС ${ Displaystyle е влево (х; тета вправо)}$ через шаг градиентного спуска: в скалярном случае это читается как

{ Displaystyle е влево (х; тета влево (т + эпсилон вправо) вправо) -f влево (х; тета влево (т вправо) вправо) приблизительно эпсилон сумма _ { i = 1} ^ {n} Theta left (x, x_ {i}; theta left (t right) right) partial _ {w} c left (w, z_ {i} right ) { big |} _ {w = f left (x_ {i}; theta right)}.}

В частности, каждая точка данных

{ displaystyle x_ {i}}

влияет на динамику выпуска

{ Displaystyle е влево (х; тета вправо)}

для каждого

{ displaystyle x}

на протяжении всего обучения способом, который фиксируется NTK

{ Displaystyle Theta left (x, x_ {i}; theta right)}

.

Предел большой ширины

Недавние теоретические и эмпирические исследования в области глубокого обучения показали, что производительность ИНС резко улучшается по мере увеличения ширины их слоя.^[5]^[6] Для различных Архитектуры ИНС, NTK дает точное представление об обучении в этом режиме большой ширины.^[1]^[7]^[8]^[9]^[10]^[11]

Широкие полносвязные ИНС имеют детерминированный NTK, который остается постоянным на протяжении всего обучения.

Рассмотрим ИНС с полностью связанный слои ${ Displaystyle ell = 0, ldots, L}$ ширины ${ displaystyle n_ {0} = n _ { mathrm {in}}, n_ {1}, ldots, n_ {L} = n _ { mathrm {out}}}$ , так что ${ Displaystyle е влево ( cdot; theta right) = R_ {L-1} circ cdots circ R_ {0}}$ , куда ${ Displaystyle R _ { ell} = sigma circ A _ { ell}}$ это состав аффинное преобразование ${ displaystyle A_ {i}}$ с поточечным применением нелинейность ${ Displaystyle sigma: mathbb {R} to mathbb {R}}$ , куда ${ displaystyle theta}$ параметризует карты ${ Displaystyle A_ {0}, ldots, A_ {L-1}}$ . Параметры ${ displaystyle theta in mathbb {R} ^ {P}}$ инициализируются случайным образом, в независимые одинаково распределенные путь.

На масштаб NTK по мере увеличения ширины влияет точная параметризация ${ displaystyle A_ {i}}$ и инициализацией параметров. Это мотивирует так называемую параметризацию NTK. ${ displaystyle A _ { ell} left (x right) = { frac {1} { sqrt {n _ { ell}}}} W ^ { left ( ell right)} x + b ^ { left ( ell right)}}$ . Эта параметризация гарантирует, что если параметры ${ displaystyle theta in mathbb {R} ^ {P}}$ инициализируются как стандартные нормальные переменные, НТК имеет конечный нетривиальный предел. В пределе большой ширины NTK сходится к детерминированному (неслучайному) пределу ${ displaystyle Theta _ { infty}}$ , который остается неизменным во времени.

НТК ${ displaystyle Theta _ { infty}}$ явно задается ${ Displaystyle Theta _ { infty} = Theta ^ { left (L right)}}$ , куда ${ Displaystyle Theta ^ { влево (L вправо)}}$ определяется системой рекурсивных уравнений:

{ Displaystyle { begin {align} Theta ^ { left (1 right)} left (x, y right) & = Sigma ^ { left (1 right)} left (x, y right), Sigma ^ { left (1 right)} left (x, y right) & = { frac {1} {n _ { mathrm {in}}}} x ^ {T } y + 1, Theta ^ { left ( ell +1 right)} left (x, y right) & = Theta ^ { left ( ell right)} left (x , y right) { dot { Sigma}} ^ { left ( ell +1 right)} left (x, y right) + Sigma ^ { left ( ell +1 right) } left (x, y right), Sigma ^ { left ( ell +1 right)} left (x, y right) & = L _ { Sigma ^ { left ( ell right)}} ^ { sigma} left (x, y right), { dot { Sigma}} ^ { left ( ell +1 right)} left (x, y right) & = L _ { Sigma ^ { left ( ell right)}} ^ { dot { sigma}}, end {выравнивается}}}

куда ${ displaystyle L_ {K} ^ {f}}$ обозначает ядро, определенное в терминах Гауссовское ожидание:

{ displaystyle L_ {K} ^ {f} left (x, y right) = mathbb {E} _ { left (X, Y right) sim { mathcal {N}} left (0 , { begin {pmatrix} K left (x, x right) & K left (x, y right) K left (y, x right) & K left (y, y right) end {pmatrix}} right)} left [f left (X right) f left (Y right) right].}

В этой формуле ядра ${ Displaystyle Sigma ^ { влево ( ell right)}}$ так называемые ядра активации^[12]^[13]^[14] ИНС.

Широкие полностью связанные сети линейны по своим параметрам на протяжении всего обучения.

NTK описывает эволюцию нейронных сетей при градиентном спуске в функциональном пространстве. Двойной с этой точки зрения является понимание того, как нейронные сети развиваются в пространстве параметров, поскольку NTK определяется в терминах градиента выходных данных ИНС по отношению к ее параметрам. В пределе бесконечной ширины связь между этими двумя перспективами становится особенно интересной. NTK, остающийся постоянным на протяжении всего обучения при большой ширине, совпадает с ИНС, хорошо описываемой на протяжении всего обучения ее расширением Тейлора первого порядка вокруг ее параметров при инициализации:^[9]

{ displaystyle f left (x; theta (t) right) = f left (x; theta (0) right) + nabla _ { theta} f left (x; theta (0 ) right) left ( theta (t) - theta (0) right) + { mathcal {O}} left ( min left (n_ {1} dots n_ {L-1} right) ^ {- { frac {1} {2}}} right).}

Другие архитектуры

НТК можно изучать для различных Архитектуры ИНС^[10], особенно Сверточные нейронные сети (CNN)^[15], Рекуррентные нейронные сети (RNN), Трансформаторные нейронные сети.^[16] В таких настройках ограничение большой ширины соответствует увеличению числа параметров при фиксированном количестве слоев: для CNN, это позволяет количеству каналов расти.

Приложения

Сходимость к глобальному минимуму

Для выпуклый функциональная потеря ${ Displaystyle { mathcal {C}}}$ с глобальный минимум, если НТК остается положительно определенный во время обучения потеря ИНС ${ Displaystyle { mathcal {C}} влево (е влево ( cdot; тета влево (т вправо) вправо) вправо)}$ сходится к этому минимуму как ${ Displaystyle т к infty}$ . Это свойство положительной определенности было продемонстрировано в ряде случаев, что дало первые доказательства того, что ИНС большой ширины сходятся к глобальным минимумам во время обучения.^[1]^[7]^[17]

Методы ядра

NTK обеспечивает строгую связь между выводом, выполняемым ИНС бесконечной ширины, и выводом, выполняемым методы ядра: когда функция потерь является потеря наименьших квадратов, логический вывод, выполняемый ИНС, ожидается равным регрессия гребня ядра (с нулевым гребнем) относительно НТК ${ displaystyle Theta _ { infty}}$ . Это говорит о том, что производительность больших ИНС в параметризации NTK может быть воспроизведена с помощью методов ядра для надлежащим образом выбранных ядер.^[1]^[10]

Программные библиотеки

Нейронные касательные это бесплатно и с открытым исходным кодом Python библиотека, используемая для вычислений и вывода с бесконечной шириной NTK и Гауссовский процесс нейронной сети (NNGP), соответствующие различным общим архитектурам ИНС.^[18]

Рекомендации

^ ^а ^б ^c ^d Жако, Артур; Габриэль, Франк; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Грауман, К. (ред.), «Нейронное касательное ядро: сходимость и обобщение в нейронных сетях» (PDF), Достижения в системах обработки нейронной информации 31, Curran Associates, Inc., стр. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, получено 2019-11-27
^ Ли, Юаньчжи; Лян, Инъюй (2018). «Изучение сверхпараметризованных нейронных сетей с помощью стохастического градиентного спуска на структурированных данных». Достижения в системах обработки нейронной информации.
^ Аллен-Чжу, Зэюань; Ли, Юаньчжи; Песня, Чжао (2018). «Теория сходимости для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению.
^ Du, Simon S; Чжай, Сиюй; Почос, Варнава; Аарти, Сингх (2019). «Градиентный спуск доказуемо оптимизирует чрезмерно параметризованные нейронные сети». Международная конференция по обучающим представительствам.
^ Новак, Роман; Бахри, Ясаман; Abolafia, Daniel A .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование». arXiv:1802.08760. Bibcode:2018arXiv180208760N. Цитировать журнал требует | журнал = (помощь)
^ Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений». arXiv:1605.07678. Bibcode:2016arXiv160507678C. Цитировать журнал требует | журнал = (помощь)
^ ^а ^б Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-11-09). «Теория конвергенции для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению: 242–252. arXiv:1811.03962.
^ Ду, Саймон; Ли, Джейсон; Ли, Хаочуань; Ван, Ливэй; Чжай, Сиюй (24.05.2019). «Градиентный спуск находит глобальные минимумы глубоких нейронных сетей». Международная конференция по машинному обучению: 1675–1685. arXiv:1811.03804.
^ ^а ^б Ли, Джэхун; Сяо, Лехао; Schoenholz, Samuel S .; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (15.02.2018). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». arXiv:1902.06720. Цитировать журнал требует | журнал = (помощь)
^ ^а ^б ^c Арора, Санджив; Du, Simon S; Ху, Вэй; Ли, Чжиюань; Салахутдинов, Русь Р; Ван, Руосонг (2019), «О точных вычислениях с бесконечно широкой нейронной сетью», NeurIPS: 8139–8148, arXiv:1904.11955
^ Хуанг, Цзяоян; Яу, Хорнг-Цер (17.09.2019). «Динамика глубоких нейронных сетей и нейронная касательная иерархия». arXiv:1909.08156.
^ Чо, Ёнмин; Саул, Лоуренс К. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J.D .; Уильямс, К. К. И. (ред.), «Методы ядра для глубокого обучения» (PDF), Достижения в системах обработки нейронной информации 22, Curran Associates, Inc., стр. 342–350., получено 2019-11-27
^ Даниэли, Амит; Фростиг, Рой; Певица, Йорам (2016), Ли, Д. Д.; Sugiyama, M .; Люксбург, Вашингтон; Гийон, И. (ред.), «К более глубокому пониманию нейронных сетей: сила инициализации и двойной взгляд на выразительность» (PDF), Достижения в системах обработки нейронной информации 29, Curran Associates, Inc., стр. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, получено 2019-11-27
^ Ли, Джэхун; Бахри, Ясаман; Новак, Роман; Schoenholz, Samuel S .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Глубокие нейронные сети как гауссовские процессы». Цитировать журнал требует | журнал = (помощь)
^ Ян, Грег (13.02.2019). «Пределы масштабирования широких нейронных сетей с разделением веса: поведение гауссовского процесса, независимость от градиента и вывод нейронного касательного ядра». arXiv:1902.04760 [cs.NE ].
^ Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18.06.2020). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.
^ Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-10-29). «О скорости сходимости обучающих рекуррентных нейронных сетей». NeurIPS. arXiv:1810.12065.
^ Новак, Роман; Сяо, Лехао; Хрон, Иржи; Ли, Джэхун; Alemi, Александр А .; Золь-Дикштейн, Яша; Шёнхольц, Самуэль С. (2019-12-05), "Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python", Международная конференция по обучающим представительствам (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N

[:0-1] а ^б ^c ^d Жако, Артур; Габриэль, Франк; Hongler, Clement (2018), Bengio, S .; Wallach, H .; Larochelle, H .; Грауман, К. (ред.), «Нейронное касательное ядро: сходимость и обобщение в нейронных сетях» (PDF), Достижения в системах обработки нейронной информации 31, Curran Associates, Inc., стр. 8571–8580, arXiv:1806.07572, Bibcode:2018arXiv180607572J, получено 2019-11-27

[2] Ли, Юаньчжи; Лян, Инъюй (2018). «Изучение сверхпараметризованных нейронных сетей с помощью стохастического градиентного спуска на структурированных данных». Достижения в системах обработки нейронной информации.

[3] Аллен-Чжу, Зэюань; Ли, Юаньчжи; Песня, Чжао (2018). «Теория сходимости для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению.

[4] Du, Simon S; Чжай, Сиюй; Почос, Варнава; Аарти, Сингх (2019). «Градиентный спуск доказуемо оптимизирует чрезмерно параметризованные нейронные сети». Международная конференция по обучающим представительствам.

[5] Новак, Роман; Бахри, Ясаман; Abolafia, Daniel A .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Чувствительность и обобщение в нейронных сетях: эмпирическое исследование». arXiv:1802.08760. Bibcode:2018arXiv180208760N. Цитировать журнал требует | журнал = (помощь)

[6] Канциани, Альфредо; Пашке, Адам; Кулурчелло, Эухенио (4 ноября 2016 г.). «Анализ моделей глубоких нейронных сетей для практических приложений». arXiv:1605.07678. Bibcode:2016arXiv160507678C. Цитировать журнал требует | журнал = (помощь)

[:2-7] а ^б Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-11-09). «Теория конвергенции для глубокого обучения через чрезмерную параметризацию». Международная конференция по машинному обучению: 242–252. arXiv:1811.03962.

[:5-8] Ду, Саймон; Ли, Джейсон; Ли, Хаочуань; Ван, Ливэй; Чжай, Сиюй (24.05.2019). «Градиентный спуск находит глобальные минимумы глубоких нейронных сетей». Международная конференция по машинному обучению: 1675–1685. arXiv:1811.03804.

[Lee-9] а ^б Ли, Джэхун; Сяо, Лехао; Schoenholz, Samuel S .; Бахри, Ясаман; Новак, Роман; Золь-Дикштейн, Яша; Пеннингтон, Джеффри (15.02.2018). «Широкие нейронные сети любой глубины развиваются как линейные модели при градиентном спуске». arXiv:1902.06720. Цитировать журнал требует | журнал = (помощь)

[:1-10] а ^б ^c Арора, Санджив; Du, Simon S; Ху, Вэй; Ли, Чжиюань; Салахутдинов, Русь Р; Ван, Руосонг (2019), «О точных вычислениях с бесконечно широкой нейронной сетью», NeurIPS: 8139–8148, arXiv:1904.11955

[11] Хуанг, Цзяоян; Яу, Хорнг-Цер (17.09.2019). «Динамика глубоких нейронных сетей и нейронная касательная иерархия». arXiv:1909.08156.

[12] Чо, Ёнмин; Саул, Лоуренс К. (2009), Bengio, Y .; Schuurmans, D .; Lafferty, J.D .; Уильямс, К. К. И. (ред.), «Методы ядра для глубокого обучения» (PDF), Достижения в системах обработки нейронной информации 22, Curran Associates, Inc., стр. 342–350., получено 2019-11-27

[13] Даниэли, Амит; Фростиг, Рой; Певица, Йорам (2016), Ли, Д. Д.; Sugiyama, M .; Люксбург, Вашингтон; Гийон, И. (ред.), «К более глубокому пониманию нейронных сетей: сила инициализации и двойной взгляд на выразительность» (PDF), Достижения в системах обработки нейронной информации 29, Curran Associates, Inc., стр. 2253–2261, arXiv:1602.05897, Bibcode:2016arXiv160205897D, получено 2019-11-27

[14] Ли, Джэхун; Бахри, Ясаман; Новак, Роман; Schoenholz, Samuel S .; Пеннингтон, Джеффри; Золь-Дикштейн, Яша (15.02.2018). «Глубокие нейронные сети как гауссовские процессы». Цитировать журнал требует | журнал = (помощь)

[15] Ян, Грег (13.02.2019). «Пределы масштабирования широких нейронных сетей с разделением веса: поведение гауссовского процесса, независимость от градиента и вывод нейронного касательного ядра». arXiv:1902.04760 [cs.NE ].

[16] Хрон, Иржи; Бахри, Ясаман; Золь-Дикштейн, Яша; Новак, Роман (18.06.2020). «Бесконечное внимание: NNGP и NTK для сетей глубокого внимания». Международная конференция по машинному обучению. 2020. arXiv:2006.10540. Bibcode:2020arXiv200610540H.

[:3-17] Аллен-Чжу, Зэюань; Ли, Юаньчжи; Сун, Чжао (2018-10-29). «О скорости сходимости обучающих рекуррентных нейронных сетей». NeurIPS. arXiv:1810.12065.

[18] Новак, Роман; Сяо, Лехао; Хрон, Иржи; Ли, Джэхун; Alemi, Александр А .; Золь-Дикштейн, Яша; Шёнхольц, Самуэль С. (2019-12-05), "Нейронные касательные: быстрые и простые бесконечные нейронные сети в Python", Международная конференция по обучающим представительствам (ICLR), 2020, arXiv:1912.02803, Bibcode:2019arXiv191202803N

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]