Метод нелинейных сопряженных градиентов - Википедия - Nonlinear conjugate gradient method

В численная оптимизация, то нелинейный метод сопряженных градиентов обобщает метод сопряженных градиентов к нелинейная оптимизация. Для квадратичной функции

минимум получается, когда градиент равно 0:

.

В то время как линейный сопряженный градиент ищет решение линейного уравнения , метод нелинейных сопряженных градиентов обычно используется для нахождения местный минимум нелинейной функции, используя ее градиент один. Он работает, когда функция приблизительно квадратична вблизи минимума, что имеет место, когда функция дважды дифференцируема в минимуме, а вторая производная там неособа.

Учитывая функцию из переменные для минимизации, его градиент указывает направление максимального увеличения. просто начинается в обратном (крутой спуск ) направление:

с регулируемой длиной шага и выполняет линейный поиск в этом направлении, пока не достигнет минимума :

,

После этой первой итерации в самом крутом направлении , следующие шаги составляют одну итерацию движения по последующему сопряженному направлению , куда :

  1. Вычислите самое крутое направление: ,
  2. Вычислить по одной из формул ниже,
  3. Обновите сопряженное направление:
  4. Выполните линейный поиск: оптимизируйте ,
  5. Обновите позицию: ,

С чистой квадратичной функцией минимум достигается в пределах N итераций (за исключением ошибки округления), но неквадратичная функция будет работать медленнее. Последующие направления поиска теряют сопряженность, требуя, чтобы направление поиска было сброшено на направление наискорейшего спуска, по крайней мере, каждые N итераций или раньше, если прогресс остановится. Однако сброс каждой итерации превращает метод в крутой спуск. Алгоритм останавливается, когда находит минимум, определяемый, когда не происходит никакого прогресса после сброса направления (то есть в направлении наискорейшего спуска), или когда достигается некоторый критерий допуска.

В линейном приближении параметры и такие же, как и в методе линейного сопряженного градиента, но были получены с помощью линейного поиска. Метод сопряженного градиента может следовать узким (плохо воспитанный ) долины, где крутой спуск метод замедляется и следует крест-накрест.

Четыре из самых известных формул для названы в честь своих разработчиков:

  • Флетчер – Ривз:[1]
  • Полак – Рибьер:[2]
  • Гестен-Штифель:[3]
  • Дай – Юань:[4]
.

Эти формулы эквивалентны для квадратичной функции, но для нелинейной оптимизации предпочтительная формула зависит от эвристики или вкуса. Популярный выбор - , который обеспечивает автоматический сброс направления.[5]

Алгоритмы на основе Метод Ньютона потенциально сходятся намного быстрее. Здесь направление и длина шага вычисляются из градиента как решения линейной системы уравнений, при этом матрица коэффициентов является точной Матрица Гессе (для собственно метода Ньютона) или его оценка (в квазиньютоновские методы, где наблюдаемое изменение градиента во время итераций используется для обновления оценки Гессе). Для задач большой размерности точное вычисление гессиана обычно является чрезмерно дорогим, и даже его хранение может быть проблематичным, требуя память (но см. ограниченную память L-BFGS квазиньютоновский метод).

Метод сопряженного градиента также может быть получен с использованием теория оптимального управления.[6] В этой теории ускоренной оптимизации метод сопряженных градиентов выпадает как нелинейный контроллер оптимальной обратной связи,

для система двойного интегратора,

Количество и - переменные коэффициенты усиления обратной связи.[6]

Смотрите также

Рекомендации

  1. ^ Fletcher, R .; Ривз, К. М. (1964). «Минимизация функции сопряженными градиентами». Comput. J. 7: 149–154.
  2. ^ Polak, E .; Рибьер, Г. (1969). «Обратите внимание на конвергенцию методов сопряженных направлений». Rev. Française Informat Recherche Opérationelle. 3 (1): 35–43.
  3. ^ Hestenes, M. R .; Штифель, Э. (1952). «Методы сопряженных градиентов для решения линейных систем». J. Research Nat. Бур. Стандарты. 49: 409–436.
  4. ^ Dai, Y.-H .; Юань, Ю. (1999). «Нелинейный метод сопряженных градиентов с сильным свойством глобальной сходимости». СИАМ Дж. Оптим. 10 (1): 177–182. Дои:10.1137 / S1052623497318992.
  5. ^ Шевчук, Дж. Р. (август 1994 г.). «Введение в метод сопряженных градиентов без мучительной боли» (PDF).
  6. ^ а б Росс, И.М. (2019). «Теория оптимального управления для ускоренной оптимизации». arXiv:1902.09004. Цитировать журнал требует | журнал = (помощь)