Матрица Гессе - Hessian matrix

В математика, то Матрица Гессе или же Гессен это квадратная матрица второго порядка частные производные скалярнозначного функция, или же скалярное поле. Он описывает локальную кривизну функции многих переменных. Матрица Гессе была разработана в 19 веке немецким математиком Людвиг Отто Гессен и позже назван его именем. Первоначально Гессе использовал термин «функциональные детерминанты».

Определения и свойства

Предполагать ж : ℝп → ℝ - функция, принимающая на вход вектор Икс ∈ ℝп и вывод скаляра ж(Икс) ∈ ℝ. Если все второе частные производные из ж существуют и непрерывны в области определения функции, то матрица Гессе ЧАС из ж это квадрат п×п матрица, обычно определяемая и организованная следующим образом:

или, сформулировав уравнение для коэффициентов с использованием индексов i и j,

Матрица Гессе представляет собой симметричная матрица, поскольку из гипотезы непрерывности вторых производных следует, что порядок дифференцирования не имеет значения (Теорема Шварца ).

В детерминант матрицы Гессе называется Детерминант Гессе.[1]

Матрица Гессе функции ж это Матрица якобиана из градиент функции ж ; то есть: ЧАС(ж(Икс)) = J(∇ж(Икс)).

Приложения

Точки перегиба

Если ж это однородный многочлен в трех переменных уравнение ж = 0 это неявное уравнение из плоская проективная кривая. В точки перегиба кривой - это в точности неособые точки, в которых определитель Гессе равен нулю. Далее следует Теорема Безу который кривая в кубической плоскости имеет не более 9 точек перегиба, так как определитель Гессе является многочленом степени 3.

Тест второй производной

Матрица Гессе выпуклая функция является положительный полуопределенный. Уточнение этого свойства позволяет нам проверить, критическая точка Икс является локальным максимумом, локальным минимумом или седловой точкой, как показано ниже:

Если гессен положительно определенный в Икс, тогда ж достигает изолированного локального минимума при Икс. Если гессен отрицательно-определенный в Икс, тогда ж достигает изолированного локального максимума при Икс. Если гессиан имеет как положительные, так и отрицательные собственные значения, тогда Икс это точка перевала за ж. В противном случае тест будет безрезультатным. Это означает, что в локальном минимуме гессиан положительно-полуопределенный, а в локальном максимуме гессиан отрицательно-полуопределенный.

Обратите внимание, что для положительно-полуопределенного и отрицательно-полуопределенного гессианов этот тест неубедителен (критическая точка, в которой гессиан является полуопределенным, но не определенным, может быть локальным экстремумом или седловой точкой). Однако можно сказать больше с точки зрения Теория Морса.

В тест второй производной для функций одной и двух переменных просто. В одной переменной гессиан содержит только одну вторую производную; если положительный, то Икс является локальным минимумом, а если он отрицательный, то Икс - локальный максимум; если он равен нулю, то проверка не дает результатов. В двух переменных детерминант можно использовать, потому что определитель - это произведение собственных значений. Если он положительный, то собственные значения либо положительны, либо отрицательны. Если он отрицательный, то два собственных значения имеют разные знаки. Если он равен нулю, то проверка второй производной неубедительна.

Эквивалентно, условия второго порядка, достаточные для локального минимума или максимума, могут быть выражены в терминах последовательности главных (крайний левый верхний) несовершеннолетние (определители подматриц) гессиана; эти условия являются частным случаем тех, которые приведены в следующем разделе для гессианов с границами для оптимизации с ограничениями - случая, когда количество ограничений равно нулю. В частности, достаточным условием для минимума является то, что все эти главные миноры должны быть положительными, в то время как достаточным условием для максимума является то, что миноры чередуются по знаку, а минор 1 × 1 является отрицательным.

Критические точки

Если градиент (вектор частных производных) функции ж равен нулю в какой-то момент Икс, тогда ж имеет критическая точка (или же стационарный пункт ) в Икс. В детерминант Гессен в Икс в некоторых контекстах называется дискриминант. Если этот определитель равен нулю, то Икс называется вырожденная критическая точка из ж, или неморсовская критическая точка из ж. В противном случае он невырожден и называется Критическая точка Морса из ж.

Матрица Гессе играет важную роль в Теория Морса и теория катастроф, потому что это ядро и собственные значения позволяют классифицировать критические точки.[2][3][4]

Использование в оптимизации

Матрицы Гессе используются в крупномасштабных оптимизация проблемы внутри Ньютон -типа, потому что они являются коэффициентом квадратичного члена локальной Расширение Тейлора функции. То есть,

куда ж это градиент (ж/Икс1, ..., ж/Иксп). Вычисление и сохранение полной матрицы Гессе требует Θ (п2) память, что невозможно для многомерных функций, таких как функции потерь из нейронные сети, условные случайные поля, и другие статистические модели с большим количеством параметров. Для таких ситуаций усеченный-Ньютон и квазиньютон алгоритмы разработаны. Последнее семейство алгоритмов использует приближения к гессиану; один из самых популярных квазиньютоновских алгоритмов - BFGS.[5]

Такие приближения могут использовать тот факт, что алгоритм оптимизации использует гессиан только как линейный оператор ЧАС(v), и сначала обратите внимание на то, что гессиан также появляется в локальном разложении градиента:

Сдача ΔИкс = рv для некоторого скаляра р, это дает

т.е.

поэтому, если градиент уже вычислен, приблизительный гессиан может быть вычислен линейным (по размеру градиента) числом скалярных операций. (Хотя эта схема аппроксимации проста в программировании, она не является численно стабильной, поскольку р должен быть небольшим, чтобы предотвратить ошибку из-за срок, но при уменьшении теряет точность в первом члене.[6])

Другие приложения

Матрица Гессе обычно используется для выражения операторов обработки изображений в обработка изображений и компьютерное зрение (см. Лапласиан Гаусса (LoG) детектор капель, детерминант гессенского (DoH) детектора капель и масштабное пространство ). Матрица Гессе также может использоваться в нормальный режим анализ для расчета различных молекулярных частот в ИК-спектроскопия.[7]


Обобщения

Гессен с окаймлением

А окаймленный гессен используется для проверки второй производной в некоторых задачах оптимизации с ограничениями. Учитывая функцию ж рассматривалось ранее, но добавляла функцию ограничения грамм такой, что грамм(Икс) = c, гессен с окаймлением - это гессен Функция Лагранжа :[8]

Если есть, скажем, м ограничений, то ноль в верхнем левом углу является м × м блок нулей, и есть м граничные строки вверху и м граничные столбцы слева.

Приведенные выше правила, утверждающие, что экстремумы характеризуются (среди критических точек с неособым гессианом) положительно-определенным или отрицательно-определенным гессианом, здесь неприменимы, поскольку гессиан с границей не может быть ни отрицательно-определенным, ни положительно-определенным, поскольку если - любой вектор, единственный ненулевой элемент которого является его первым.

Тест второй производной состоит здесь из знаковых ограничений определителей некоторого набора п - м подматрицы гессиана с краем.[9] Интуитивно можно представить себе м ограничения, сводящие проблему к проблеме с п - м свободные переменные. (Например, максимизация ж(Икс1,Икс2,Икс3) при условии ограничения Икс1+ х2+ х3 = 1 можно свести к максимальному ж(Икс1,Икс2, 1 – x1-Икс2) без принуждения.)

В частности, знаковые условия накладываются на последовательность ведущих главных миноров (определителей выровненных по левому верхнему краю подматриц) гессиана с краем, для которого первые 2м ведущие основные миноры игнорируются, наименьший минор состоит из усеченных первых 2м+1 строки и столбцы, следующая состоит из усеченных первых 2м+2 строки и столбца и т. Д., Причем последняя представляет собой весь гессенский столб с окантовкой; если 2м+1 больше, чем n + m, то наименьший ведущий главный минор - это сам гессен.[10] Таким образом пм несовершеннолетние для рассмотрения, каждый из которых оценивается в конкретный момент, рассматриваемый как кандидат максимум или минимум. Достаточное условие для местного максимум состоит в том, что эти миноры чередуются по знаку с наименьшим из них, имеющим знак (–1)м+1. Достаточное условие для местного минимум в том, что все эти миноры имеют знак (–1)м. (В неограниченном случае м= 0 эти условия совпадают с условиями отрицательно-определенного или положительно определенного гессиана без границы соответственно).

Векторозначные функции

Если ж вместо этого векторное поле ж : ℝп → ℝм, т.е.

то набор вторых частных производных не является п×п матрица, а точнее третьего порядка тензор. Это можно представить как массив м Матрицы Гессе, по одной на каждый компонент ж:

Этот тензор вырождается в обычную матрицу Гессе, когда м = 1.

Обобщение на сложный случай

В контексте несколько сложных переменных, гессиан можно обобщить. Предполагать , и мы пишем . Тогда можно обобщить гессиан на . Обратите внимание, что если удовлетворяет n-мерному Условия Коши – Римана., то комплексная матрица Гессе тождественно равна нулю.

Обобщения на римановы многообразия

Позволять быть Риманово многообразие и это Леви-Чивита связь. Позволять - гладкая функция. Мы можем определить тензор Гессе

к ,

где мы воспользовались преимуществом того, что первая ковариантная производная функции совпадает с ее обычной производной. Выбор местных координат получаем локальное выражение для гессиана как

куда являются Символы Кристоффеля связи. Другие эквивалентные формы для гессиана даются

и .

Смотрите также

Примечания

  1. ^ Бинмор, Кен; Дэвис, Джоан (2007). Концепции и методы исчисления. Издательство Кембриджского университета. п. 190. ISBN  978-0-521-77541-0. OCLC  717598615.
  2. ^ Каллахан, Джеймс Дж. (2010). Расширенный расчет: геометрический вид. Springer Science & Business Media. п. 248. ISBN  978-1-4419-7332-0.
  3. ^ Casciaro, B .; Fortunato, D .; Francaviglia, M .; Масиелло, А., ред. (2011). Последние достижения в общей теории относительности. Springer Science & Business Media. п. 178. ISBN  9788847021136.
  4. ^ Доменико П. Л. Кастриджано; Сандра А. Хейс (2004). Теория катастроф. Westview Press. п. 18. ISBN  978-0-8133-4126-2.
  5. ^ Нокедаль, Хорхе; Райт, Стивен (2000). Численная оптимизация. Springer Verlag. ISBN  978-0-387-98793-4.
  6. ^ Перлмуттер, Барак А. (1994). «Быстрое точное умножение на гессиан» (PDF). Нейронные вычисления. 6 (1): 147–160. Дои:10.1162 / neco.1994.6.1.147.
  7. ^ Мотт, Адам Дж .; Рез, Питер (24 декабря 2014 г.). «Расчет инфракрасных спектров белков». Европейский биофизический журнал. 44 (3): 103–112. Дои:10.1007 / s00249-014-1005-6. ISSN  0175-7571.
  8. ^ Халлам, Арне (7 октября 2004 г.). "Econ 500: Количественные методы в экономическом анализе I" (PDF). Штат Айова.
  9. ^ Нойдекер, Хайнц; Магнус, Ян Р. (1988). Матричное дифференциальное исчисление с приложениями в статистике и эконометрике. Нью-Йорк: Джон Уайли и сыновья. п. 136. ISBN  978-0-471-91516-4.
  10. ^ Чан, Альфа К. (1984). Фундаментальные методы математической экономики (Третье изд.). Макгроу-Хилл. п.386. ISBN  978-0-07-010813-4.

дальнейшее чтение

  • Льюис, Дэвид В. (1991). Матричная теория. Сингапур: World Scientific. ISBN  978-981-02-0689-5.
  • Магнус, Ян Р .; Neudecker, Хайнц (1999). «Второй дифференциал». Матричное дифференциальное исчисление: с приложениями в статистике и эконометрике (Пересмотренная ред.). Нью-Йорк: Вили. С. 99–115. ISBN  0-471-98633-X.

внешняя ссылка