Разложение Холецкого - Cholesky decomposition

В линейная алгебра, то Разложение Холецкого или же Факторизация Холецкого (произносится /ʃə.ˈлɛs.kя/) это разложение из Эрмитский, положительно определенная матрица в продукт нижняя треугольная матрица и это сопряженный транспонировать, что полезно для эффективных численных решений, например, Моделирование Монте-Карло. Это было обнаружено Андре-Луи Холески для реальных матриц. Когда это применимо, разложение Холецкого примерно в два раза эффективнее, чем LU разложение для решения системы линейных уравнений.[1]

Заявление

Разложение Холецкого Эрмитский положительно определенная матрица А, является разложением вида

куда L это нижняя треугольная матрица с действительными и положительными диагональными элементами, и L* обозначает сопряженный транспонировать из L. Каждая эрмитова положительно определенная матрица (а значит, и каждая вещественнозначная симметричная положительно определенная матрица) имеет уникальное разложение Холецкого.[2]

Обратное утверждение тривиально: если А можно записать как LL* для некоторых обратимых L, нижний треугольник или иное, то А является эрмитовым и положительно определенным.

Когда А является вещественной матрицей (следовательно, симметричной положительно определенной), факторизация может быть записана

А = LLТ,

куда L - вещественная нижнетреугольная матрица с положительными диагональными элементами.[3][4][5]

Положительные полуопределенные матрицы

Если эрмитова матрица А является только положительно полуопределенным, а не положительно определенным, то он все еще имеет разложение вида А = LL* где диагональные элементы L могут быть равны нулю.[6]Разложение не обязательно должно быть уникальным, например:

Однако если ранг А является р, то существует единственный нижний треугольник L с точно р положительные диагональные элементы и н-р столбцы, содержащие все нули.[7]

В качестве альтернативы декомпозиция может быть сделана уникальной, если фиксирован выбор поворота. Формально, если А является п × п положительно полуопределенная матрица ранга р, то существует хотя бы одна матрица перестановок п такой, что П А ПТ имеет единственное разложение вида П А ПТ = L L* с,куда L1 является р × р нижнетреугольная матрица с положительной диагональю.[8]

Разложение ЛПНП

Близким вариантом классического разложения Холецкого является разложение ЛПНП,

куда L это нижний блок треугольный (унитреугольный) матрица и D это диагональ матрица, то есть диагональные элементы L должны быть равны 1 за счет введения дополнительной диагональной матрицы D Основное преимущество состоит в том, что разложение LDL можно вычислить и использовать по существу с теми же алгоритмами, но без извлечения квадратных корней.[9]

По этой причине разложение ЛПНП часто называют без квадратного корня Холецкий разложение. Для вещественных матриц факторизация имеет вид А = ЛПНПТ и часто упоминается как Разложение LDLT (или ЛПНПТ разложение, или ЛПНП '). Это тесно связано с собственное разложение вещественных симметричных матриц, А = QΛQТ.

Разложение ЛПНП связано с классическим разложением Холецкого вида LL* следующее:

Наоборот, учитывая классическое разложение Холецкого положительно определенной матрицы, если S - диагональная матрица, содержащая главную диагональ , затем А можно разложить как куда

(это изменяет масштаб каждого столбца, чтобы сделать диагональные элементы равными 1),

Если А положительно определена, то диагональные элементы D все положительны. для положительных полуопределенных А, разложение существует там, где количество ненулевых элементов на диагонали D это в точности ранг А.[10]Некоторые неопределенные матрицы, для которых не существует разложения Холецкого, имеют разложение LDL с отрицательными элементами в D: достаточно, чтобы первая п-1 ведущие основные несовершеннолетние из А неособые.[11]

Пример

Вот разложение Холецкого симметричной вещественной матрицы:

А вот его ЛПНПТ разложение:

Приложения

Разложение Холецкого в основном используется для численного решения линейные уравнения . Если А симметрично и положительно определено, то мы можем решить сначала вычислив разложение Холецкого , затем решая за у к форвардная замена, и наконец решение за Икс к обратная замена.

Альтернативный способ избавиться от извлечения квадратного корня из разложение заключается в вычислении разложения Холецкого , затем решая за у, и наконец решение .

Для линейных систем, которые могут быть представлены в симметричной форме, разложение Холецкого (или его вариант LDL) является методом выбора, обеспечивающим превосходную эффективность и численную стабильность. По сравнению с LU разложение, это примерно в два раза эффективнее.[1]

Линейный метод наименьших квадратов

Системы формы Топор = б с А симметричные и положительно определенные возникают в приложениях довольно часто. Например, нормальные уравнения в линейный метод наименьших квадратов проблемы имеют такую ​​форму. Также может случиться, что матрица А исходит от энергетического функционала, который должен быть положительным с физических соображений; это часто случается при численном решении уравнения в частных производных.

Нелинейная оптимизация

Нелинейные многомерные функции могут быть минимизированы по их параметрам, используя варианты Метод Ньютона называется квазиньютон методы. На итерации k поиск идет в направлении определяется путем решения = за , куда это направление шага, это градиент, и является приближением к Матрица Гессе формируется путем повторения обновлений ранга 1 на каждой итерации. Две известные формулы обновления называются Дэвидон – Флетчер – Пауэлл (DFP) и Бройден – Флетчер – Гольдфарб – Шанно (BFGS). Потери положительно-определенного условия из-за ошибки округления можно избежать, если вместо обновления приближения к обратному к гессиану обновлять разложение Холецкого аппроксимации самой матрицы Гессе.[12]

Моделирование Монте-Карло

Разложение Холецкого обычно используется в Метод Монте-Карло для моделирования систем с множеством коррелированных переменных. В ковариационная матрица раскладывается, чтобы получить нижнетреугольную L. Применяя это к вектору некоррелированных выборок ты производит образец вектора Лу с ковариационными свойствами моделируемой системы.[13]

Следующий упрощенный пример показывает экономию, которую можно получить из разложения Холецкого: предположим, цель состоит в том, чтобы сгенерировать две коррелированные нормальные переменные. и с заданным коэффициентом корреляции . Для этого необходимо сначала сгенерировать две некоррелированные гауссовские случайные величины. и , что можно сделать с помощью Преобразование Бокса – Мюллера. С учетом необходимого коэффициента корреляции , коррелированные нормальные переменные могут быть получены с помощью преобразований и .

Фильтры Калмана

Фильтры Калмана без запаха обычно используют разложение Холецкого для выбора набора так называемых сигма-точек. Фильтр Калмана отслеживает среднее состояние системы как вектор Икс длины N и ковариация как N × N матрица п. Матрица п всегда положительно полуопределен и может быть разложен на LLТ. Столбцы L можно складывать и вычитать из среднего Икс чтобы сформировать набор из 2N векторы, называемые сигма точки. Эти сигма-точки полностью отражают среднее значение и ковариацию состояния системы.

Обращение матрицы

Явный обратный эрмитовой матрицы можно вычислить с помощью разложения Холецкого аналогично решению линейных систем с использованием операции ( умножения).[9] Вся инверсия может быть даже эффективно выполнена на месте.

Неэрмитова матрица B также можно инвертировать, используя следующее тождество, где BB* всегда будет эрмитским:

Вычисление

Существуют различные методы вычисления разложения Холецкого. Вычислительная сложность обычно используемых алгоритмов составляет О(п3) в целом.[нужна цитата ] Все описанные ниже алгоритмы включают около п3/3 FLOPs (п3/ 6 умножений и такое же количество сложений), где п размер матрицы А. Следовательно, они получают половину стоимости LU разложение, который использует 2п3/ 3 FLOP (см. Trefethen and Bau 1997).

Какой из приведенных ниже алгоритмов быстрее, зависит от деталей реализации. Как правило, первый алгоритм будет немного медленнее, потому что он получает доступ к данным менее регулярно.

Алгоритм Холецкого

В Алгоритм Холецкого, используется для вычисления матрицы разложения L, это модифицированная версия Гауссово исключение.

Рекурсивный алгоритм начинается с я : = 1 и

А(1) := А.

На шаге я, матрица А(я) имеет следующий вид:

куда яя−1 обозначает единичная матрица измерения я − 1.

Если теперь определить матрицу Lя к

тогда мы можем написать А(я) в качестве

куда

Обратите внимание, что бя б*я является внешний продукт, поэтому этот алгоритм называется внешняя версия продукта в (Голуб и Ван Лоан).

Мы повторяем это для я от 1 до п. После п шаги, мы получаем А(п+1) = я. Следовательно, нижнетреугольная матрица L мы ищем рассчитывается как

Алгоритмы Холецкого – Банахевича и Холецкого – Краута.

Шаблон доступа (белый) и шаблон записи (желтый) для локального алгоритма Холецкого-Банахевича на матрице 5 × 5

Если мы выпишем уравнение

получаем следующее:

и поэтому следующие формулы для элементов L:

Для комплексных и вещественных матриц разрешены несущественные изменения знаков диагональных и связанных недиагональных элементов. Выражение под квадратный корень всегда положительно, если А является реальным и положительно определенным.

Для комплексной эрмитовой матрицы применяется следующая формула:

Итак, мы можем вычислить (я, j) запись, если нам известны записи слева и выше. Вычисления обычно располагаются в одном из следующих порядков:

  • В Алгоритм Холецкого – Банахевича начинается с верхнего левого угла матрицы L и переходит к вычислению матрицы построчно.
  • В Алгоритм Холецкого – Краута начинается с верхнего левого угла матрицы L и переходит к вычислению матрицы столбец за столбцом.

Любой из вариантов доступа позволяет при желании выполнять все вычисления на месте.

Стабильность расчета

Предположим, что мы хотим решить хорошо кондиционированный система линейных уравнений. Если используется разложение LU, алгоритм будет нестабильным, если мы не используем какую-то стратегию поворота. В последнем случае ошибка зависит от так называемого фактора роста матрицы, который обычно (но не всегда) невелик.

Теперь предположим, что применимо разложение Холецкого. Как было сказано выше, алгоритм будет вдвое быстрее. Кроме того, нет поворот необходимо, и погрешность всегда будет небольшой. В частности, если мы хотим решить Топор = б, и у обозначает вычисленное решение, то у решает возмущенную систему (А + E)у = б, куда

Здесь || · ||2 это матрица 2-норма, cп небольшая константа, зависящая от п, а ε обозначает округление единицы.

Одна из проблем разложения Холецкого, о которой следует помнить, - это использование квадратных корней. Если факторизуемая матрица положительно определена, как требуется, числа под квадратными корнями всегда положительны. в точной арифметике. К сожалению, числа могут стать отрицательными из-за ошибки округления, и в этом случае алгоритм не может продолжаться. Однако это может произойти только в том случае, если матрица очень плохо подготовлена. Один из способов решить эту проблему - добавить матрицу диагональной коррекции к разлагаемой матрице, чтобы попытаться обеспечить положительную определенность.[14] Хотя это может снизить точность разложения, это может быть очень выгодно по другим причинам; например, при выполнении Метод Ньютона в оптимизации добавление диагональной матрицы может улучшить стабильность, когда она далека от оптимальной.

Разложение ЛПНП

Альтернативная форма, устраняющая необходимость извлекать квадратные корни при А симметрично, является симметричной неопределенной факторизацией[15]

Следующие рекурсивные отношения применяются для записей D и L:

Это работает до тех пор, пока сгенерированные диагональные элементы в D оставайся ненулевым. Тогда разложение единственное. D и L реальны, если А реально.

Для сложной эрмитовой матрицы А, применяется следующая формула:

Опять же, шаблон доступа позволяет при желании выполнять все вычисления на месте.

Вариант блока

При использовании с неопределенными матрицами ЛПНП* известно, что факторизация нестабильна без осторожного поворота;[16] в частности, элементы факторизации могут расти произвольно. Возможное улучшение - выполнить факторизацию блочных подматриц, обычно 2 × 2:[17]

где каждый элемент в матрицах выше представляет собой квадратную подматрицу. Отсюда следуют аналогичные рекурсивные отношения:

Это включает в себя матричные произведения и явную инверсию, что ограничивает практический размер блока.

Обновление разложения

На практике часто возникает задача обновить разложение Холецкого. Более подробно, разложение Холецкого уже вычислено какой-то матрицы , то заменяют матрицу каким-то образом в другую матрицу, скажем , и нужно вычислить разложение Холецкого обновленной матрицы: . Вопрос теперь в том, можно ли использовать разложение Холецкого который был вычислен ранее для вычисления разложения Холецкого .

Обновление первого ранга

Конкретный случай, когда обновленная матрица связана с матрицей к , известен как ранговое обновление.

Вот небольшая функция[18] написано в Matlab синтаксис, реализующий обновление первого ранга:

функция[L] =cholupdate(L, х)п = длина(Икс);    за k = 1:п        р = sqrt(L(k, k)^2 + Икс(k)^2);        c = р / L(k, k);        s = Икс(k) / L(k, k);        L(k, k) = р;        если k < п            L((k+1):п, k) = (L((k+1):п, k) + s * Икс((k+1):п)) / c;            Икс((k+1):п) = c * Икс((k+1):п) - s * L((k+1):п, k);        конец    конецконец

Понижение первого ранга

А понижение первого ранга похоже на обновление первого ранга, за исключением того, что добавление заменяется вычитанием: . Это работает, только если новая матрица все еще положительно определен.

Код для обновления первого ранга, показанный выше, можно легко адаптировать для понижения ранга один: нужно просто заменить два добавления в назначении на р и L ((к + 1): п, к) путем вычитания.

Добавление и удаление строк и столбцов

Если у нас есть симметричная и положительно определенная матрица представлен в виде блока как

и его верхний фактор Холецкого

затем для новой матрицы , что совпадает с но с добавлением новых строк и столбцов,

нас интересует факторизация Холецкого , который мы называем , без прямого вычисления всего разложения.

Письмо для решения , который легко найти для треугольных матриц, и для разложения Холецкого , можно найти следующие отношения:

Эти формулы могут использоваться для определения фактора Холецкого после вставки строк или столбцов в любую позицию, если мы соответствующим образом установим размеры строки и столбца (в том числе равными нулю). Обратная задача, когда мы имеем

с известным разложением Холецкого

и желаете определить фактор Холецкого

матрицы с удаленными строками и столбцами,

дает следующие правила:

Обратите внимание, что все приведенные выше уравнения, которые включают поиск разложения Холецкого новой матрицы, имеют вид , что позволяет эффективно рассчитывать их с помощью процедур обновления и понижения, подробно описанных в предыдущем разделе.[19]

Доказательство для положительно полуопределенных матриц

Доказательство ограничивающим аргументом

Приведенные выше алгоритмы показывают, что любая положительно определенная матрица имеет разложение Холецкого. Этот результат можно распространить на положительный полуопределенный случай ограничивающим аргументом. Аргумент не является полностью конструктивным, т.е. не дает явных численных алгоритмов для вычисления факторов Холецкого.

Если является положительная полуопределенная матрица, то последовательность состоит из положительно определенные матрицы. (Это является непосредственным следствием, например, теоремы о спектральном отображении для полиномиального функционального исчисления.) Кроме того,

в норма оператора. Из положительно определенного случая каждый имеет разложение Холецкого . По свойству операторной нормы

Так является ограниченным множеством в Банахово пространство операторов, поэтому относительно компактный (поскольку лежащее в основе векторное пространство конечномерно). Следовательно, он имеет сходящуюся подпоследовательность, также обозначаемую , с лимитом . Легко проверить, что это имеет желаемые свойства, т.е. , и является нижним треугольником с неотрицательными диагональными элементами: для всех и ,

Следовательно, . Поскольку основное векторное пространство конечномерно, все топологии в пространстве операторов эквивалентны. Так как правило в норме означает как правило входной. Это, в свою очередь, означает, что, поскольку каждый является нижним треугольником с неотрицательными диагональными элементами, это также.

Доказательство QR-разложением

Позволять быть положительный полуопределенный Эрмитова матрица. Тогда его можно записать как произведение матрица квадратного корня, . Сейчас же QR-разложение может быть применен к , в результате чего , куда унитарен и верхнетреугольный. Подставляя разложение в исходное равенство, получаем . Параметр завершает доказательство.

Обобщение

Факторизация Холецкого может быть обобщена[нужна цитата ] в (не обязательно конечные) матрицы с операторными элементами. Позволять быть последовательностью Гильбертовы пространства. Рассмотрим операторную матрицу

действуя на прямую сумму

где каждый

это ограниченный оператор. Если А положительно (полуопределено) в том смысле, что для всех конечных k и для любого

у нас есть , то существует нижнетреугольная операторная матрица L такой, что А = LL*. Можно также взять диагональные записи L быть позитивным.

Реализации в библиотеках программирования

  • Язык программирования C: the Научная библиотека GNU предоставляет несколько реализаций разложения Холецкого.
  • Максима система компьютерной алгебры: функция холецкий вычисляет разложение Холецкого.
  • GNU Octave Система численных вычислений предоставляет несколько функций для вычисления, обновления и применения разложения Холецкого.
  • В ЛАПАК Библиотека обеспечивает высокопроизводительную реализацию разложения Холецкого, к которой можно получить доступ из Fortran, C и большинства языков.
  • В Python, функция cholesky из модуля numpy.linalg выполняет разложение Холецкого.
  • В Matlab и р, функция "chol" дает разложение Холецкого ..
  • В Юля, функция "cholesky" из стандартной библиотеки LinearAlgebra дает разложение Холецкого.
  • В Mathematica, функция "CholeskyDecomposition" может быть применена к матрице.
  • В C ++, команда "чоль" из библиотеки броненосцев выполняет разложение Холецкого. В Библиотека Eigen предоставляет факторизации Холецкого как для разреженных, так и для плотных матриц.
  • в КОРЕНЬ пакет доступен класс TDecompChol.
  • В Аналитика, функция Decompose дает разложение Холецкого.
  • В В библиотеке Apache Commons Math есть реализация который можно использовать в Java, Scala и любом другом языке JVM.

Смотрите также

Примечания

  1. ^ а б Press, William H .; Саул А. Теукольский; Уильям Т. Веттерлинг; Брайан П. Фланнери (1992). Числовые рецепты на языке C: искусство научных вычислений (второе изд.). Кембриджский университет, Англия, EPress. п.994. ISBN  0-521-43108-5. Получено 2009-01-28.
  2. ^ Голуб и Ван Лоан (1996), п. 143), Хорн и Джонсон (1985), п. 407), Trefethen & Bau (1997)., п. 174).
  3. ^ Хорн и Джонсон (1985), п. 407).
  4. ^ «Матрицы - Диагонализация комплексной симметричной матрицы». MathOverflow. Получено 2020-01-25.
  5. ^ Шабауэр, Ханнес; Пачер, Кристоф; Сандерленд, Эндрю Дж .; Ганстерер, Уилфрид Н. (01.05.2010). «К параллельному решателю для обобщенных сложных симметричных задач на собственные значения». Процедуры информатики. ICCS 2010. 1 (1): 437–445. Дои:10.1016 / j.procs.2010.04.047. ISSN  1877-0509.
  6. ^ Голуб и Ван Лоан (1996), п. 147).
  7. ^ Нежный, Джеймс Э. (1998). Численная линейная алгебра для приложений в статистике. Springer. п. 94. ISBN  978-1-4612-0623-1.
  8. ^ Хайэм, Николас Дж. (1990). "Анализ разложения Холецкого полуопределенной матрицы". In Cox, M. G .; Хаммарлинг, С. Дж. (Ред.). Надежные численные вычисления. Оксфорд, Великобритания: Издательство Оксфордского университета. С. 161–185. ISBN  978-0-19-853564-5.
  9. ^ а б Кришнамурти, Аравинд; Менон, Дипак (2011). «Инверсия матриц с помощью разложения Холецкого». 1111: 4144. arXiv:1111.4144. Bibcode:2011arXiv1111.4144K. Цитировать журнал требует | журнал = (помощь)
  10. ^ Итак, Энтони Ман-Чо (2007). Подход полуопределенного программирования к проблеме реализации графа: теория, приложения и расширения (PDF) (Кандидат наук). Теорема 2.2.6.
  11. ^ Голуб и Ван Лоан (1996), Теорема 4.1.3)
  12. ^ Арора, Дж. Введение в оптимальный дизайн (2004), стр. 327. https://books.google.com/books?id=9FbwVe577xwC&pg=PA327
  13. ^ Документация Matlab randn. mathworks.com.
  14. ^ Фанг, Хаврен; О'Лири, Дайан П. (8 августа 2006 г.). «Модифицированные алгоритмы Холецкого: каталог с новыми подходами» (PDF). Цитировать журнал требует | журнал = (помощь)
  15. ^ Уоткинс, Д. (1991). Основы матричных вычислений. Нью-Йорк: Вили. п.84. ISBN  0-471-61414-9.
  16. ^ Нокедаль, Хорхе (2000). Численная оптимизация. Springer.
  17. ^ Фанг, Хаврен (24 августа 2007 г.). «Анализ блочных LDLT-факторизаций для симметричных неопределенных матриц». Цитировать журнал требует | журнал = (помощь)
  18. ^ По материалам: Стюарт, Г. В. (1998). Основные разложения. Филадельфия: Soc. по промышленной и прикладной математике. ISBN  0-89871-414-1.
  19. ^ Осборн, М. (2010), Приложение B.

Рекомендации

внешняя ссылка

История науки

  • Sur la résolution numérique des systèmes d'équations linéaires, Рукопись Холецкого 1910 г., онлайн и проанализирована BibNum (на французском и английском языках) [для английского нажмите "Зарядное устройство"]

Информация

Компьютерный код

Use of the matrix in simulation

Online calculators