Выпрямитель (нейронные сети) - Rectifier (neural networks)
В контексте искусственные нейронные сети, то выпрямитель является функция активации определяется как положительная часть его аргумента:
куда Икс это вход в нейрон. Это также известно как функция рампы и аналогичен полуволновое выпрямление в электротехнике.
Этот функция активации был впервые представлен динамической сети Ханлозером и др. в 2000 г.[сомнительный ] с сильным биологический мотивации и математические обоснования.[1][2] Это было впервые продемонстрировано в 2011 году, чтобы обеспечить лучшее обучение более глубоких сетей,[3] по сравнению с широко используемыми функциями активации до 2011 г., например, логистическая сигмовидная (вдохновленный теория вероятности; видеть логистическая регрессия ) и его более практичный[4] коллега, гиперболический тангенс. Выпрямитель, по состоянию на 2017 г.[Обновить], самая популярная функция активации для глубокие нейронные сети.[5]
Блок, использующий выпрямитель, также называется выпрямленный линейный блок (ReLU).[6]
Выпрямленные линейные блоки находят применение в компьютерное зрение[3] и распознавание речи[7][8] с помощью глубокие нейронные сети и вычислительная нейробиология.[9][10][11]
Преимущества
- Биологическое правдоподобие: одностороннее по сравнению с антисимметрия из танх.[non sequitur ]
- Разреженная активация: например, в случайно инициализированной сети активируется только около 50% скрытых модулей (с ненулевым выходом).
- Лучшее распространение градиента: меньше исчезающий градиент проблемы по сравнению с сигмоидальными функциями активации, которые насыщаются в обоих направлениях.[3]
- Эффективные вычисления: только сравнение, сложение и умножение.
- Масштабно-инвариантный: .
Выпрямляющие функции активации использовались для разделения специфического возбуждения и неспецифического торможения в пирамиде нейронной абстракции, которая обучалась под наблюдением для изучения нескольких задач компьютерного зрения.[12] В 2011,[3] было показано, что использование выпрямителя в качестве нелинейности обеспечивает глубокое обучение под наблюдением нейронные сети без необходимости без присмотра предварительная подготовка. Выпрямленные линейные блоки, по сравнению с сигмовидная функция или аналогичные функции активации, позволяют более быстро и эффективно обучать глубокие нейронные архитектуры на больших и сложных наборах данных.
Потенциальные проблемы
- Недифференцируемый в нуле; однако она дифференцируема в любом другом месте, и значение производной в нуле может быть произвольно выбрано равным 0 или 1.
- Не с нулевым центром.
- Безграничный.
- Проблема умирающего ReLU: нейроны ReLU иногда могут быть переведены в состояния, в которых они становятся неактивными практически для всех входов. В этом состоянии через нейрон не текут градиенты, и поэтому нейрон застревает в постоянно неактивном состоянии и «умирает». Это форма проблема исчезающего градиента. В некоторых случаях большое количество нейронов в сети может застрять в мертвых состояниях, эффективно уменьшая емкость модели. Эта проблема обычно возникает, когда скорость обучения установлена слишком высоко. Его можно уменьшить, используя вместо этого негерметичные ReLU, которые задают небольшой положительный наклон для Икс <0, однако производительность снижается.
Варианты
Линейная единица измерения ошибки Гаусса (GELU)
GELU - это плавное приближение к выпрямителю. Он имеет немонотонный «выпуклость», когда x <0, и служит активацией по умолчанию для таких моделей, как БЕРТ.[13]
,
где Φ (x) - кумулятивная функция распределения стандарта нормальное распределение.
SiLU
SiLU (Sigmoid Linear Unit) - еще одно гладкое приближение, впервые представленное в статье GELU.[13]
Softplus
Гладкое приближение к выпрямителю - это аналитическая функция
который называется softplus[14][3] или же SmoothReLU функция.[15] Для большого негатива это о так что чуть выше 0, а для больших положительных о так чуть выше .
Параметр резкости могут быть включены:
Производной softplus является логистическая функция. Начиная с параметрической версии,
Логистическая сигмовидная функция является гладкой аппроксимацией производной выпрямителя, Ступенчатая функция Хевисайда.
Многопараметрическое обобщение softplus с одной переменной - это LogSumExp с первым аргументом, установленным в ноль:
Функция LogSumExp
и его градиент - это softmax; softmax с первым аргументом, установленным в ноль, является многовариантным обобщением логистической функции. И LogSumExp, и softmax используются в машинном обучении.
Дырявый ReLU
Утечки ReLU допускают небольшой положительный градиент, когда устройство неактивно.[8]
Параметрическое ReLU
Параметрические ReLU (PReLU) развивают эту идею дальше, превращая коэффициент утечки в параметр, который изучается вместе с другими параметрами нейронной сети.[16]
Обратите внимание, что для a ≤ 1 это эквивалентно
и таким образом имеет отношение к сетям "maxout".[16]
ELU
Экспоненциальные линейные единицы пытаются приблизить среднее значение активации к нулю, что ускоряет обучение. Было показано, что ELU могут получить более высокую точность классификации, чем ReLU.[17]
куда это гиперпараметр быть настроенным, и это ограничение.
Смотрите также
Рекомендации
- ^ Hahnloser, R .; Sarpeshkar, R .; Mahowald, M.A .; Дуглас, Р. Дж .; Сын, Х.С. (2000). «Цифровая селекция и аналоговое усиление сосуществуют в кремниевой схеме, вдохновленной корой головного мозга». Природа. 405 (6789): 947–951. Bibcode:2000Натура.405..947H. Дои:10.1038/35016072. PMID 10879535. S2CID 4399014.
- ^ Hahnloser, R .; Сын, Х.С. (2001). Разрешенные и запрещенные множества в симметричных порогово-линейных сетях. НИПС 2001.
- ^ а б c d е Ксавье Глоро, Антуан Борд и Йошуа Бенжио (2011). Нейронные сети с глубоким разреженным выпрямителем (PDF). АИСТАТС.
Выпрямитель и функции активации softplus. Второй - это плавный вариант первого.
CS1 maint: использует параметр авторов (связь) - ^ Янн ЛеКун, Леон Ботту, Женевьева Б. Орр и Клаус-Роберт Мюллер (1998). «Эффективный BackProp» (PDF). У Г. Орра; К. Мюллер (ред.). Нейронные сети: хитрости торговли. Springer.CS1 maint: использует параметр авторов (связь)
- ^ Рамачандран, Праджит; Баррет, Зоф; Куок, В. Ле (16 октября 2017 г.). «Поиск функций активации». arXiv:1710.05941 [cs.NE ].
- ^ Винод Наир и Джеффри Хинтон (2010). Выпрямленные линейные блоки улучшают машины Больцмана с ограничениями (PDF). ICML.CS1 maint: использует параметр авторов (связь)
- ^ Ласло Тот (2013). Распознавание телефона с помощью нейронных сетей глубокого разреженного выпрямителя (PDF). ICASSP.CS1 maint: использует параметр авторов (связь)
- ^ а б Эндрю Л. Маас, Авни Ю. Ханнун, Эндрю Ю. Нг (2014). Нелинейность выпрямителя улучшает акустические модели нейронной сети.
- ^ Hansel, D .; ван Фрисвейк, К. (2002). «Как шум способствует контрастной инвариантности настройки ориентации зрительной коры головного мозга кошки». J. Neurosci. 22 (12): 5118–5128. Дои:10.1523 / JNEUROSCI.22-12-05118.2002. ЧВК 6757721. PMID 12077207.
- ^ Кадмон, Джонатан; Сомполинский, Хаим (19.11.2015). «Переход к хаосу в случайных нейронных сетях». Физический обзор X. 5 (4): 041030. arXiv:1508.06486. Bibcode:2015PhRvX ... 5d1030K. Дои:10.1103 / PhysRevX.5.041030. S2CID 7813832.
- ^ Энгелькен, Райнер; Вольф, Фред; Эбботт, Л. Ф. (2020-06-03). «Спектры Ляпунова хаотических рекуррентных нейронных сетей». arXiv:2006.02427 [nlin.CD ].
- ^ Бенке, Свен (2003). Иерархические нейронные сети для интерпретации изображений. Конспект лекций по информатике. 2766. Springer. Дои:10.1007 / b11963. ISBN 978-3-540-40722-5. S2CID 1304548.
- ^ а б Хендрикс, Дэн; Гимпель, Кевин (2016). «Линейные единицы с ошибкой Гаусса (GELU)». arXiv:1606.08415 [cs.LG ].
- ^ Дугас, Чарльз; Бенхио, Йошуа; Белисль, Франсуа; Надо, Клод; Гарсия, Рене (1 января 2000 г.). «Использование функциональных знаний второго порядка для лучшей оценки опционов» (PDF). Материалы 13-й Международной конференции по системам обработки нейронной информации (NIPS'00). MIT Press: 451–457.
Поскольку сигмовидная час имеет положительную первую производную, его примитив, который мы называем softplus, выпуклый.
- ^ "Прямой слой сглаживающего выпрямителя (SmoothReLU)". Руководство разработчика для библиотеки Intel Data Analytics Acceleration. 2017. Получено 2018-12-04.
- ^ а б Он, Кайминг; Чжан, Сянъюй; Рен, Шаоцин; Сунь, Цзянь (2015). "Углубляясь в выпрямители: превосходящие человеческие характеристики по качеству изображения Сеть Классификация ». arXiv:1502.01852 [cs.CV ].
- ^ Клеверт, Джорк-Арне; Унтертинер, Томас; Хохрайтер, Зепп (2015). «Быстрое и точное глубокое обучение сети с помощью экспоненциальных линейных единиц (ELU)». arXiv:1511.07289 [cs.LG ].