Алгоритм Гаусса – Ньютона - Gauss–Newton algorithm

Подбор зашумленной кривой с помощью модели асимметричного пика с использованием алгоритма Гаусса – Ньютона с переменным коэффициентом затухания α.
Вверху: исходные данные и модель.
Внизу: эволюция нормированной суммы квадратов ошибок.

В Алгоритм Гаусса – Ньютона используется для решения нелинейный метод наименьших квадратов проблемы. Это модификация Метод Ньютона для поиска минимум из функция. В отличие от метода Ньютона, алгоритм Гаусса – Ньютона может использоваться только для минимизации суммы квадратов значений функции, но он имеет то преимущество, что вторые производные, которые может быть сложно вычислить, не требуются.[1]

Нелинейные задачи наименьших квадратов возникают, например, в нелинейная регрессия, где параметры в модели ищутся так, чтобы модель хорошо согласовывалась с имеющимися наблюдениями.

Метод назван в честь математиков. Карл Фридрих Гаусс и Исаак Ньютон, и впервые появился в работе Гаусса 1809 г. Theoria motus corporum coelestium in sectionibus conicis solem ambientum.[2]

Описание

Данный м функции р = (р1, …, рм) (часто называемые остатками) п переменные β = (β1, …, βп), с м ≥ п, алгоритм Гаусса – Ньютона итеративно находит значение переменных, которое минимизирует сумму квадратов[3]

Начиная с первоначального предположения для минимума метод продолжается итерациями

где, если р и β находятся вектор-столбец, записи Матрица якобиана находятся

и символ обозначает матрица транспонировать.

Если м = п, итерация упрощается до

что является прямым обобщением Метод Ньютона в одном измерении.

При подборе данных, цель которого - найти параметры β так что данная модельная функция у = ж(Икс, β) лучше всего подходит для некоторых точек данных (Икся, уя) функции ря являются остатки:

Тогда метод Гаусса – Ньютона можно выразить через якобиан Jж функции ж в качестве

Обратите внимание, что левый псевдообратный из .

Примечания

Предположение м ≥ п в формулировке алгоритма необходимо, иначе матрица JрТJр не обратима, и нормальные уравнения не могут быть решены (по крайней мере, однозначно).

Алгоритм Гаусса – Ньютона может быть получен следующим образом: линейно аппроксимирующий вектор функций ря. С помощью Теорема Тейлора, мы можем писать на каждой итерации:

с . Задача нахождения Δ, минимизирующая сумму квадратов правой части; т.е.

это линейный метод наименьших квадратов Задача, которая может быть решена явно, давая нормальные уравнения в алгоритме.

Нормальные уравнения: п совместных линейных уравнений с неизвестными приращениями Δ. Их можно решить за один шаг, используя Разложение Холецкого, или, лучше, QR-факторизация из Jр. Для больших систем итерационный метод, такой как сопряженный градиент метод, может быть более эффективным. Если существует линейная зависимость между столбцами Jр, итерации не удастся, так как JрТJр становится единичным.

Когда сложно :CпC следует использовать конъюгированную форму: .

Пример

Расчетная кривая, полученная с и (синим цветом) по сравнению с наблюдаемыми данными (красным).

В этом примере алгоритм Гаусса – Ньютона будет использоваться для подгонки модели к некоторым данным путем минимизации суммы квадратов ошибок между данными и прогнозами модели.

В биологическом эксперименте, изучающем связь между концентрацией субстрата [S] и скорости реакции в ферментно-опосредованной реакции были получены данные в следующей таблице.

я1234567
[S]0.0380.1940.4250.6261.2532.5003.740
Ставка0.0500.1270.0940.21220.27290.26650.3317

Требуется найти кривую (модельную функцию) вида

который лучше всего соответствует данным в смысле наименьших квадратов, с параметрами и быть определенным.

Обозначим через и значение [S] и ставка из таблицы, . Позволять и . Мы найдем и такая, что сумма квадратов остатков

сводится к минимуму.

Якобиан вектора невязок относительно неизвестных это матрица с -я строка, содержащая записи

Начиная с первоначальных оценок и , после пяти итераций алгоритма Гаусса – Ньютона оптимальные значения и получены. Сумма квадратов остатков уменьшилась с начального значения 1,445 до 0,00784 после пятой итерации. График на рисунке справа показывает кривую, определенную моделью для оптимальных параметров с наблюдаемыми данными.

Свойства сходимости

Это можно показать[4] что приращение Δ является направление спуска за S, и, если алгоритм сходится, то предел равен стационарная точка из S. Однако сходимость не гарантируется, даже локальная конвергенция как в Метод Ньютона, или сходимость в обычных условиях Вульфа.[5]

Скорость сходимости алгоритма Гаусса – Ньютона может приближаться к квадратичный.[6] Алгоритм может сходиться медленно или не сходиться вообще, если первоначальное предположение далеко от минимума или матрица является плохо воспитанный. Например, рассмотрим проблему с уравнения и переменная, заданная

Оптимум на . (На самом деле оптимум при за , потому что , но .) Если , то фактически задача является линейной, и метод находит оптимум за одну итерацию. Если | λ | <1, то метод линейно сходится и погрешность уменьшается асимптотически с коэффициентом | λ | на каждой итерации. Однако если | λ | > 1, то метод даже не сходится локально.[7]

Вывод из метода Ньютона

В дальнейшем алгоритм Гаусса – Ньютона будет выводиться из Метод Ньютона для оптимизации функций с помощью аппроксимации. Как следствие, скорость сходимости алгоритма Гаусса – Ньютона может быть квадратичной при определенных условиях регулярности. В целом (при более слабых условиях) скорость сходимости линейна.[8]

Рекуррентное соотношение для метода Ньютона минимизации функции S параметров является

куда грамм обозначает вектор градиента из S, и ЧАС обозначает Матрица Гессе из S.

С , градиент определяется выражением

Элементы гессиана вычисляются путем дифференцирования элементов градиента, , относительно :

Метод Гаусса – Ньютона получается путем игнорирования членов производной второго порядка (второго члена в этом выражении). То есть гессиан аппроксимируется

куда являются элементами якобиана Jр. Градиент и приближенный гессиан можно записать в матричной записи как

Эти выражения подставляются в приведенное выше рекуррентное соотношение, чтобы получить операционные уравнения

Сходимость метода Гаусса – Ньютона не гарантируется во всех случаях. Приближение

которое должно выполняться, чтобы иметь возможность игнорировать члены производной второго порядка, может быть действительным в двух случаях, для которых следует ожидать сходимости:[9]

  1. Значения функции невелики по величине, по крайней мере, около минимума.
  2. Функции только "умеренно" нелинейны, так что относительно невелика по величине.

Улучшенные версии

С помощью метода Гаусса – Ньютона сумма квадратов остатков S может не уменьшаться на каждой итерации. Однако, поскольку Δ - направление спуска, если только является стационарной точкой, выполняется для всех достаточно малых . Таким образом, если происходит расхождение, одним из решений является использование дроби вектора приращения Δ в формуле обновления:

.

Другими словами, вектор приращения слишком длинный, но он по-прежнему указывает «под гору», поэтому выполнение лишь части пути уменьшит целевую функцию. S. Оптимальное значение для можно найти с помощью линейный поиск алгоритм, то есть величина определяется путем нахождения значения, которое минимизирует S, обычно используя метод прямого поиска в интервале или поиск строки с возвратом Такие как Armijo-line поиск. Обычно следует выбирать так, чтобы он удовлетворял Условия Вульфа или Условия Гольдштейна.[10]

В случаях, когда направление вектора сдвига таково, что оптимальная доля α близка к нулю, альтернативным методом обработки дивергенции является использование Алгоритм Левенберга – Марквардта, а регион доверия метод.[3] Нормальные уравнения изменяются таким образом, что вектор приращения поворачивается в направлении крутой спуск,

куда D - положительная диагональная матрица. Обратите внимание, что когда D это единичная матрица я и , тогда , Следовательно направление Δ приближается к направлению отрицательного градиента .

Так называемый параметр Марквардта также может быть оптимизирован линейным поиском, но это неэффективно, так как вектор сдвига необходимо каждый раз пересчитывать изменено. Более эффективная стратегия такова: при возникновении дивергенции увеличивайте параметр Марквардта до тех пор, пока не произойдет уменьшение S. Затем сохраняйте значение от одной итерации к следующей, но уменьшайте его, если возможно, до достижения порогового значения, когда параметр Marquardt может быть установлен на ноль; минимизация S затем становится стандартной минимизацией Гаусса – Ньютона.

Масштабная оптимизация

Для крупномасштабной оптимизации метод Гаусса – Ньютона представляет особый интерес, поскольку часто (хотя, конечно, не всегда) верно, что матрица Больше редкий чем приблизительный гессен . В таких случаях само пошаговое вычисление обычно необходимо выполнять с помощью приближенного итерационного метода, подходящего для больших и разреженных задач, таких как метод сопряженных градиентов.

Чтобы такой подход работал, нужен как минимум эффективный метод вычисления продукта.

для какого-то вектора п. С разреженная матрица хранения, в целом практично хранить ряды в сжатом виде (например, без нулевых записей), что затрудняет прямое вычисление вышеуказанного продукта из-за транспонирования. Однако, если определить cя как строка я матрицы , выполняется следующее простое соотношение:

так что каждая строка вносит аддитивный и независимый вклад в продукт. Это выражение не только учитывает практическую разреженную структуру хранения, но и хорошо подходит для параллельные вычисления. Обратите внимание, что каждая строка cя - градиент соответствующей невязки ря; Имея это в виду, приведенная выше формула подчеркивает тот факт, что остатки вносят вклад в проблему независимо друг от друга.

Связанные алгоритмы

В квазиньютоновский метод, например, из-за Дэвидон, Флетчер и Пауэлл или Бройден – Флетчер – Гольдфарб – Шанно (Метод BFGS ) оценка полного гессиана строится численно с использованием первых производных только чтобы после п циклов уточнения метод очень близок к методу Ньютона по своим характеристикам. Обратите внимание, что квазиньютоновские методы могут минимизировать общие вещественные функции, тогда как методы Гаусса – Ньютона, Левенберга – Марквардта и т. Д. Подходят только для нелинейных задач наименьших квадратов.

Другой метод решения задач минимизации с использованием только первых производных - это градиентный спуск. Однако этот метод не учитывает вторые производные даже приблизительно. Следовательно, это очень неэффективно для многих функций, особенно если параметры сильно взаимодействуют.

Примечания

  1. ^ Mittelhammer, Ron C .; Миллер, Дуглас Дж .; Судья, Джордж Г. (2000). Эконометрические основы. Кембридж: Издательство Кембриджского университета. С. 197–198. ISBN  0-521-62394-4.
  2. ^ Флудас, Христодулос А.; Пардалос, Панос М. (2008). Энциклопедия оптимизации. Springer. п. 1130. ISBN  9780387747583.
  3. ^ а б Бьорк (1996)
  4. ^ Бьорк (1996), стр. 260.
  5. ^ Mascarenhas (2013), "Расхождение методов BFGS и Гаусса Ньютона", Математическое программирование, 147 (1): 253–276, arXiv:1309.7922, Дои:10.1007 / s10107-013-0720-6
  6. ^ Бьорк (1996), стр. 341, 342.
  7. ^ Флетчер (1987), стр. 113.
  8. ^ «Архивная копия» (PDF). Архивировано из оригинал (PDF) на 2016-08-04. Получено 2014-04-25.CS1 maint: заархивированная копия как заголовок (связь)
  9. ^ Нокедал (1999), стр. 259.
  10. ^ Нокедаль, Хорхе. (1999). Численная оптимизация. Райт, Стивен Дж., 1960-. Нью-Йорк: Спрингер. ISBN  0387227423. OCLC  54849297.

Рекомендации

внешняя ссылка

Реализации

  • Artelys Knitro представляет собой нелинейный решатель с реализацией метода Гаусса – Ньютона. Он написан на C и имеет интерфейсы к C ++ / C # / Java / Python / MATLAB / R.