Закрытый рекуррентный блок - Gated recurrent unit
Закрытый рекуррентный блокs (ГРУs) являются запорным механизмом в повторяющиеся нейронные сети, представленный в 2014 году Kyunghyun Cho et al.[1] ГРУ похоже на долговременная кратковременная память (LSTM) с воротами забвения,[2] но имеет меньше параметров, чем LSTM, так как в нем отсутствует выходной вентиль.[3] Было обнаружено, что производительность ГРУ по определенным задачам моделирования полифонической музыки, моделирования речевых сигналов и обработки естественного языка аналогична LSTM.[4][5] Было показано, что ГРУ демонстрируют лучшую производительность на некоторых меньших и менее частых наборах данных.[6][7]
Однако, как показали Гейл Вайс, Йоав Голдберг и Эран Яхав, LSTM «строго сильнее», чем ГРУ, поскольку он может легко выполнять неограниченный подсчет, а ГРУ - нет. Вот почему ГРУ не может изучать простые языки, которые можно выучить с помощью LSTM.[8]
Точно так же, как показали Денни Бритц, Анна Голди, Минь-Тханг Луонг и Куок Ле из Google Brain, Ячейки LSTM неизменно превосходят ячейки GRU в «первом крупномасштабном анализе вариантов архитектуры нейронного машинного перевода».[9]
Архитектура
Существует несколько вариаций полностью закрытого блока, где стробирование выполняется с использованием предыдущего скрытого состояния и смещения в различных комбинациях, а также упрощенная форма, называемая минимальным закрытым блоком.[10]
Оператор обозначает Произведение Адамара В следующих.
Полностью закрытый блок
Первоначально для , выходной вектор .
Переменные
- : входной вектор
- : выходной вектор
- : вектор активации кандидата
- : обновить вектор ворот
- : сбросить вектор ворот
- , и : матрицы параметров и вектор
- : Оригинал сигмовидная функция.
- : Оригинал гиперболический тангенс.
Возможны альтернативные функции активации при условии, что .
Альтернативные формы можно создать, изменив и [11]
- Тип 1, каждый вентиль зависит только от предыдущего скрытого состояния и смещения.
- Тип 2, каждый гейт зависит только от предыдущего скрытого состояния.
- Тип 3, каждый вентиль вычисляется только с использованием смещения.
Минимальный закрытый блок
Минимальный стробируемый модуль аналогичен полностью стробированному модулю, за исключением того, что вектор затвора обновления и сброса объединяется в стробирующий затвор. Это также означает, что уравнение для выходного вектора должно быть изменено:[12]
Переменные
- : входной вектор
- : выходной вектор
- : вектор активации кандидата
- : забыть вектор
- , и : матрицы параметров и вектор
Рекомендации
- ^ Чо, Кёнхён; ван Мерриенбоер, Барт; Гульчере, Чаглар; Богданов, Дмитрий; Бугарес, Фетхи; Швенк, Хольгер; Бенжио, Йошуа (2014). «Изучение представлений фраз с использованием кодировщика-декодера RNN для статистического машинного перевода». arXiv:1406.1078. Цитировать журнал требует
| журнал =
(помощь) - ^ Феликс Герс; Юрген Шмидхубер; Фред Камминс (1999). «Учимся забывать: постоянное прогнозирование с помощью LSTM». Proc. ICANN'99, IEE, Лондон. 1999: 850–855. Дои:10.1049 / cp: 19991218. ISBN 0-85296-721-7.
- ^ "Учебное пособие по рекуррентным нейронным сетям, часть 4 - Реализация RNN GRU / LSTM с помощью Python и Theano - WildML". Wildml.com. 2015-10-27. Получено 18 мая, 2016.
- ^ Раванелли, Мирко; Бракел, Филимон; Омолого, Маурицио; Бенджио, Йошуа (2018). "Легкие закрытые рекуррентные блоки для распознавания речи". Транзакции IEEE по новым темам в области вычислительного интеллекта. 2 (2): 92–102. arXiv:1803.10225. Дои:10.1109 / TETCI.2017.2762739. S2CID 4402991.
- ^ Су, Юахан; Куо, Джей (2019). «О расширенной долгосрочной краткосрочной памяти и зависимой двунаправленной рекуррентной нейронной сети». arXiv:1803.01686.
- ^ Су, Юаньхан; Куо, Джей (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
- ^ Gruber, N .; Jockisch, A. (2020), "Являются ли клетки GRU более специфичными, а клетки LSTM более чувствительными при классификации текста по мотивам?", Границы искусственного интеллекта, 3, Дои:10.3389 / frai.2020.00040, S2CID 220252321
- ^ Вайс, Гейл; Гольдберг, Йоав; Яхав, Эран (2018). «О практической вычислительной мощности RNN конечной точности для распознавания языков». arXiv:1805.04908 [cs.NE ].
- ^ Бритц, Денни; Голди, Анна; Луонг, Минь-Тханг; Ле, Куок (2018). «Массовое исследование архитектур нейронного машинного перевода». arXiv:1703.03906 [cs.NE ].
- ^ Чунг, Чжунён; Гульчере, Чаглар; Чо, Кён Хён; Бенжио, Йошуа (2014). «Эмпирическая оценка стробированных рекуррентных нейронных сетей при моделировании последовательности». arXiv:1412.3555 [cs.NE ].
- ^ Дей, Рахул; Салем, Фатхи М. (20 января 2017 г.). "Gate-варианты нейронных сетей Gated Recurrent Unit (GRU)". arXiv:1701.05923 [cs.NE ].
- ^ Черт возьми, Джоэл; Салем, Фатхи М. (12 января 2017 г.). «Упрощенные минимальные вариации стробированных единиц для рекуррентных нейронных сетей». arXiv:1701.03452 [cs.NE ].