Тип искусственной нейронной сети, использующей радиальные базисные функции в качестве функций активации
В области математическое моделирование, а сеть радиальных базисных функций является искусственная нейронная сеть который использует радиальные базисные функции в качестве функции активации. Выход сети - это линейная комбинация радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, в том числе аппроксимация функции, прогнозирование временных рядов, классификация, и система контроль. Впервые они были сформулированы в статье 1988 г. Брумхедом и Лоу, исследователями из Королевские сигналы и радиолокационная станция.[1][2][3]
Сетевая архитектура
Рисунок 1: Архитектура сети радиальных базисных функций. Входной вектор
используется в качестве входных данных для всех радиальных базисных функций, каждая с разными параметрами. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.
Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый слой с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел. . Выход сети тогда является скалярной функцией входного вектора, , и задается
куда - количество нейронов в скрытом слое, центральный вектор нейрона , и это вес нейрона в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальной базисной функции. В базовой форме все входы подключены к каждому скрытому нейрону. В норма обычно считается Евклидово расстояние (Хотя Расстояние Махаланобиса работает лучше с распознаванием образов[4][5][редактирование ]), а радиальная базисная функция обычно принимается равной Гауссовский
- .
Гауссовские базисные функции локальны по отношению к центральному вектору в том смысле, что
то есть изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.
При определенных мягких условиях на форму функции активации RBF-сети являются универсальные аппроксиматоры на компактный подмножество .[6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.
Параметры , , и определяются таким образом, чтобы оптимизировать соответствие между и данные.
Рисунок 2: Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены по адресу
и
.
Нормализованный
Рисунок 3: Две нормализованные радиальные базисные функции в одном входном измерении (
сигмоиды ). Базовые функциональные центры расположены по адресу
и
.
Рисунок 4: Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в
Рисунок 5: Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в
. Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.
Нормализованная архитектура
В дополнение к вышесказанному ненормализованный архитектура, сети RBF могут быть нормализованный. В этом случае отображение
куда
известна как «нормализованная радиальная базисная функция».
Теоретическая мотивация нормализации
Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим, что стохастическое ядро приближение для совместной плотности вероятности
где гири и являются примерами из данных, и мы требуем, чтобы ядра были нормализованы
и
- .
Плотности вероятностей во входном и выходном пространствах равны
и
Ожидание y при вводе является
куда
условная вероятность y при данном Условная вероятность связана с совместной вероятностью через Теорема Байеса
что дает
- .
Это становится
когда выполняются интеграции.
Локальные линейные модели
Иногда удобно расширить архитектуру, включив в нее местный линейный модели. В этом случае архитектуры становятся, в первую очередь,
и
в ненормализованном и нормализованном случаях соответственно. Здесь веса подлежат определению. Возможны также линейные члены более высокого порядка.
Этот результат можно записать
куда
и
в ненормализованном случае и
в нормализованном случае.
Здесь это Дельта-функция Кронекера определяется как