Сеть радиальных базисных функций - Radial basis function network

В области математическое моделирование, а сеть радиальных базисных функций является искусственная нейронная сеть который использует радиальные базисные функции в качестве функции активации. Выход сети - это линейная комбинация радиальных базисных функций входов и параметров нейрона. Сети радиальных базисных функций имеют множество применений, в том числе аппроксимация функции, прогнозирование временных рядов, классификация, и система контроль. Впервые они были сформулированы в статье 1988 г. Брумхедом и Лоу, исследователями из Королевские сигналы и радиолокационная станция.[1][2][3]

Сетевая архитектура

Рисунок 1: Архитектура сети радиальных базисных функций. Входной вектор используется в качестве входных данных для всех радиальных базисных функций, каждая с разными параметрами. Выход сети представляет собой линейную комбинацию выходов радиальных базисных функций.

Сети с радиальной базисной функцией (RBF) обычно имеют три уровня: входной уровень, скрытый слой с нелинейной функцией активации RBF и линейный выходной слой. Вход можно смоделировать как вектор действительных чисел. . Выход сети тогда является скалярной функцией входного вектора, , и задается

куда - количество нейронов в скрытом слое, центральный вектор нейрона , и это вес нейрона в линейном выходном нейроне. Функции, которые зависят только от расстояния от центрального вектора, радиально симметричны относительно этого вектора, отсюда и название радиальной базисной функции. В базовой форме все входы подключены к каждому скрытому нейрону. В норма обычно считается Евклидово расстояние (Хотя Расстояние Махаланобиса работает лучше с распознаванием образов[4][5][редактирование ]), а радиальная базисная функция обычно принимается равной Гауссовский

.

Гауссовские базисные функции локальны по отношению к центральному вектору в том смысле, что

то есть изменение параметров одного нейрона имеет лишь небольшой эффект для входных значений, которые находятся далеко от центра этого нейрона.

При определенных мягких условиях на форму функции активации RBF-сети являются универсальные аппроксиматоры на компактный подмножество .[6] Это означает, что RBF-сеть с достаточным количеством скрытых нейронов может аппроксимировать любую непрерывную функцию на замкнутом ограниченном множестве с произвольной точностью.

Параметры , , и определяются таким образом, чтобы оптимизировать соответствие между и данные.

Рисунок 2: Две ненормализованные радиальные базисные функции в одном входном измерении. Базовые функциональные центры расположены по адресу и .

Нормализованный

Рисунок 3: Две нормализованные радиальные базисные функции в одном входном измерении (сигмоиды ). Базовые функциональные центры расположены по адресу и .
Рисунок 4: Три нормализованных радиальных базисных функции в одном входном измерении. Дополнительная базовая функция имеет центр в
Рисунок 5: Четыре нормализованных радиальных базисных функции в одном входном измерении. Четвертая базисная функция имеет центр в . Обратите внимание, что первая базовая функция (темно-синий) стала локализованной.

Нормализованная архитектура

В дополнение к вышесказанному ненормализованный архитектура, сети RBF могут быть нормализованный. В этом случае отображение

куда

известна как «нормализованная радиальная базисная функция».

Теоретическая мотивация нормализации

Есть теоретическое обоснование этой архитектуры в случае стохастического потока данных. Предположим, что стохастическое ядро приближение для совместной плотности вероятности

где гири и являются примерами из данных, и мы требуем, чтобы ядра были нормализованы

и

.

Плотности вероятностей во входном и выходном пространствах равны

и

Ожидание y при вводе является

куда

условная вероятность y при данном Условная вероятность связана с совместной вероятностью через Теорема Байеса

что дает

.

Это становится

когда выполняются интеграции.

Локальные линейные модели

Иногда удобно расширить архитектуру, включив в нее местный линейный модели. В этом случае архитектуры становятся, в первую очередь,

и

в ненормализованном и нормализованном случаях соответственно. Здесь веса подлежат определению. Возможны также линейные члены более высокого порядка.

Этот результат можно записать

куда

и

в ненормализованном случае и

в нормализованном случае.

Здесь это Дельта-функция Кронекера определяется как

.

Обучение персонала

Сети RBF обычно обучаются на основе пар входных и целевых значений. , по двухэтапному алгоритму.

На первом этапе центральные векторы из функций RBF в скрытом слое выбраны. Этот шаг можно выполнить несколькими способами; центры могут быть отобраны случайным образом из некоторого набора примеров, или они могут быть определены с использованием k-означает кластеризацию. Обратите внимание, что этот шаг без присмотра.

Второй шаг просто соответствует линейной модели с коэффициентами к выходам скрытого слоя относительно некоторой целевой функции. Общей целевой функцией, по крайней мере, для оценки регрессии / функции, является функция наименьших квадратов:

куда

.

Мы явно включили зависимость от весов. Минимизация целевой функции наименьших квадратов за счет оптимального выбора весов оптимизирует точность подбора.

Бывают случаи, когда необходимо оптимизировать несколько целей, таких как плавность и точность. В этом случае полезно оптимизировать регуляризованную целевую функцию, такую ​​как

куда

и

где оптимизация S максимизирует гладкость и известен как регуляризация параметр.

Третий необязательный обратное распространение шаг может быть выполнен для точной настройки всех параметров сети RBF.[3]

Интерполяция

Сети RBF могут использоваться для интерполяции функции когда значения этой функции известны в конечном числе точек: . Принимая известные точки быть центрами радиальных базисных функций и оценивать значения базисных функций в тех же точках веса могут быть решены из уравнения

Можно показать, что матрица интерполяции в приведенном выше уравнении невырождена, если точки различны, и поэтому веса решается простой линейной алгеброй:

куда .

Аппроксимация функции

Если целью является не строгая интерполяция, а более общая аппроксимация функции или же классификация оптимизация несколько сложнее, поскольку очевидного выбора центров нет. Тренировка обычно проводится в два этапа: сначала фиксируются ширина и центры, а затем веса. Это может быть оправдано, если рассмотреть различную природу нелинейных скрытых нейронов по сравнению с линейным выходным нейроном.

Обучение базовых функциональных центров

Центры базисных функций могут быть случайным образом отобраны среди входных экземпляров или получены с помощью алгоритма обучения методом наименьших квадратов, или найдены с помощью кластеризация выборки и выбор кластерных средних в качестве центров.

Ширина RBF обычно фиксируется на одном и том же значении, которое пропорционально максимальному расстоянию между выбранными центрами.

Псевдообратное решение для линейных весов

После центров были исправлены, веса, которые минимизируют ошибку на выходе, могут быть вычислены с помощью линейного псевдообратный решение:

,

где записи грамм - значения радиальных базисных функций, вычисленных в точках : .

Существование этого линейного решения означает, что в отличие от многослойных перцептронных (MLP) сетей, RBF-сети имеют явный минимизатор (когда центры фиксированы).

Тренировка линейных весов градиентным спуском

Другой возможный алгоритм обучения: градиентный спуск. При обучении градиентному спуску веса корректируются на каждом временном шаге, перемещая их в направлении, противоположном градиенту целевой функции (что позволяет найти минимум целевой функции),

куда это «параметр обучения».

В случае тренировки с линейными весами , алгоритм становится

в ненормализованном случае и

в нормализованном случае.

Для локальной линейно-линейной архитектуры обучение градиентному спуску

Обучение оператора проекции линейных весов

В случае тренировки с линейными весами и , алгоритм становится

в ненормализованном случае и

в нормализованном случае и

в локально-линейном случае.

Для одной базовой функции обучение оператора проекции сводится к Метод Ньютона.

Рисунок 6: Временные ряды логистической карты. Повторное повторение логистической карты порождает хаотический временной ряд. Значения лежат между нулем и единицей. Здесь показаны 100 тренировочных точек, использованных для тренировки примеров из этого раздела. Веса c - это первые пять точек этого временного ряда.

Примеры

Логистическая карта

Основные свойства радиальных базисных функций можно проиллюстрировать с помощью простой математической карты: логистическая карта, который отображает единичный интервал на себя. Его можно использовать для генерации удобного потока данных прототипа. Логистическую карту можно использовать для изучения аппроксимация функции, прогнозирование временных рядов, и теория управления. Карта возникла из области динамика населения и стал прототипом для хаотичный Временные ряды. Карта в полностью хаотическом режиме имеет вид

где t - временной индекс. Значение x в момент времени t + 1 является параболической функцией x в момент времени t. Это уравнение представляет собой базовую геометрию хаотических временных рядов, созданных логистической картой.

Генерация временного ряда из этого уравнения - это прямая задача. Примеры здесь иллюстрируют обратная задача; идентификация основной динамики или фундаментального уравнения логистической карты по образцам временных рядов. Цель - найти оценку

для f.

Аппроксимация функции

Ненормализованные радиальные базисные функции

Архитектура

Рисунок 7: Ненормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающий набор.

куда

.

Поскольку на входе скаляр а не вектор, входной размер - один. Мы выбираем количество базисных функций как N = 5, а размер обучающей выборки - 100 экземпляров, сгенерированных хаотическим временным рядом. Вес принимается константа, равная 5. Веса пять экземпляров из временного ряда. Веса прошли обучение с обучением операторов проецирования:

где скорость обучения принято равным 0,3. Обучение проводится за один проход через 100 тренировочных точек. В среднеквадратичная ошибка составляет 0,15.

Рисунок 8: Нормализованные базисные функции. Логистическая карта (синий) и приближение к логистической карте (красный) после одного прохода через обучающий набор. Обратите внимание на улучшение по сравнению с ненормализованным случаем.

Нормализованные радиальные базисные функции

Нормализованная архитектура RBF

куда

.

Опять таки:

.

Опять же, мы выбираем количество базовых функций, равное пяти, и размер обучающего набора, равный 100 образцам, сгенерированным хаотическим временным рядом. Вес принимается константа, равная 6. Веса пять экземпляров из временного ряда. Веса прошли обучение с обучением операторов проецирования:

где скорость обучения снова принимается равным 0,3. Обучение проводится за один проход через 100 тренировочных точек. В среднеквадратичная ошибка на тестовой выборке из 100 экземпляров - 0,084, что меньше ненормированной ошибки. Нормализация дает повышение точности. Обычно точность с нормализованными базисными функциями увеличивается еще больше по сравнению с ненормализованными функциями по мере увеличения входной размерности.

Рисунок 9: Нормализованные базисные функции. Логистическая карта (синяя) и приближение к логистической карте (красный) как функция времени. Обратите внимание, что аппроксимация подходит только для нескольких временных шагов. Это общая характеристика хаотических временных рядов.

Прогнозирование временных рядов

После того, как базовая геометрия временного ряда оценена, как в предыдущих примерах, прогноз для временного ряда может быть сделан путем итерации:

.

На рисунке показано сравнение фактического и расчетного временных рядов. Расчетный временной ряд начинается в нулевой момент времени с точным знанием x (0). Затем он использует оценку динамики для обновления оценки временного ряда для нескольких временных шагов.

Обратите внимание, что оценка точна только для нескольких временных шагов. Это общая характеристика хаотических временных рядов. Это свойство чувствительной зависимости от начальных условий, характерных для хаотических временных рядов. Небольшая начальная ошибка со временем усиливается. Мера расхождения временных рядов с почти идентичными начальными условиями известна как Показатель Ляпунова.

Контроль хаотического временного ряда

Рисунок 10: Управление логистической картой. Системе позволено естественным образом развиваться за 49 временных шагов. В момент времени 50 включается управление. Желаемая траектория для временного ряда отмечена красным. Управляемая система изучает лежащую в основе динамику и приводит временной ряд к желаемому результату. Архитектура такая же, как и в примере прогнозирования временных рядов.

Мы предполагаем, что выходом логистической карты можно управлять с помощью параметра управления. такой, что

.

Цель состоит в том, чтобы выбрать параметр управления таким образом, чтобы привести временной ряд к желаемому результату. . Это можно сделать, если выбрать параметр управления

куда

является приближением к основной естественной динамике системы.

Алгоритм обучения представлен

куда

.

Смотрите также

Рекомендации

  1. ^ Broomhead, D. S .; Лоу, Дэвид (1988). Радиальные базисные функции, функциональная интерполяция с несколькими переменными и адаптивные сети (Технический отчет). RSRE. 4148.
  2. ^ Broomhead, D. S .; Лоу, Дэвид (1988). «Многопараметрическая функциональная интерполяция и адаптивные сети» (PDF). Сложные системы. 2: 321–355.
  3. ^ а б Швенкер, Фридхельм; Kestler, Hans A .; Пальма, Гюнтер (2001). «Три этапа обучения для сетей с радиальной базисной функцией». Нейронные сети. 14 (4–5): 439–458. CiteSeerX  10.1.1.109.312. Дои:10.1016 / s0893-6080 (01) 00027-2. PMID  11411631.
  4. ^ Бехайм, Ларби; Зитуни, Адель; Беллуар, Фабьен (январь 2004 г.). «Новый классификатор нейронных сетей RBF с оптимизированным количеством скрытых нейронов». CiteSeerX  10.1.1.497.5646.
  5. ^ Ибрикчи, Тургай; Brandt, M.E .; Ван, Гуанью; Ациккар, Мустафа (23–26 октября 2002 г.). Расстояние Махаланобиса с радиальной базисной функциональной сетью на вторичных структурах белков. Материалы второй совместной 24-й ежегодной конференции и ежегодного осеннего собрания Общества биомедицинской инженерии. Общество инженерии в медицине и биологии, Материалы ежегодной международной конференции IEEE. 3. Хьюстон, Техас, США (опубликовано 6 января 2003 г.). С. 2184–2185. Дои:10.1109 / IEMBS.2002.1053230. ISBN  0-7803-7612-9. ISSN  1094-687X. | дата доступа = требует | url = (помощь)
  6. ^ Park, J .; И. В. Сандберг (лето 1991 г.). "Универсальное приближение с использованием сетей радиальной базисной функции". Нейронные вычисления. 3 (2): 246–257. Дои:10.1162 / neco.1991.3.2.246. PMID  31167308. S2CID  34868087.

дальнейшее чтение