Приближения гауссовского процесса - Gaussian process approximations

В статистике и машинном обучении Приближение гауссовского процесса это вычислительный метод что ускоряет задачи вывода в контексте Гауссовский процесс модель, чаще всего вероятность оценка и прогноз. Подобно приближениям других моделей, они часто могут быть выражены как дополнительные предположения, налагаемые на модель, которые не соответствуют никаким реальным характеристикам, но которые сохраняют свои ключевые свойства при упрощении расчетов. Многие из этих приближенных методов могут быть выражены в чисто линейная алгебраическая или же функциональная аналитика термины как приближения матрицы или функции. Другие являются чисто алгоритмическими и не могут быть легко перефразированы как модификация статистической модели.

Основные идеи

В статистическое моделирование, часто удобно считать, что , исследуемое явление представляет собой Гауссовский процесс проиндексировано который имеет функцию среднего и ковариационная функция . Также можно предположить, что данные - значения конкретной реализации этого процесса для индексов .

Следовательно, совместное распределение данных можно выразить как

,

куда и , т.е. соответственно вектор матрица со значениями ковариационной функции и вектор со средними значениями функции при соответствующих (парах) индексов. Отрицательная логарифмическая вероятность данных тогда принимает вид

Точно так же лучший предсказатель , значения для индексов , учитывая данные имеет форму

В контексте гауссовских моделей, особенно в геостатистика, прогнозирование с использованием наилучшего предиктора, то есть среднего, обусловленного данными, также известно как кригинг.

Самый затратный с точки зрения вычислений компонент формулы лучшего предсказателя - это инвертирование в ковариационная матрица , имеющий кубический сложность . Точно так же оценка вероятности включает в себя как расчет и детерминант имеющий такую ​​же кубическую сложность.

Приближения гауссовского процесса часто можно выразить в терминах предположений о под которым и можно рассчитать с гораздо меньшей сложностью. Поскольку обычно считается, что эти предположения не отражают реальность, вероятность и лучший предсказатель, полученные таким образом, не являются точными, но они должны быть близки к своим исходным значениям.

Модельные методы

Этот класс приближений выражается через набор предположений, которые накладываются на исходный процесс и которые, как правило, подразумевают некоторую особую структуру ковариационной матрицы. Хотя большинство этих методов были разработаны независимо, большинство из них можно выразить как частные случаи разреженных общих Приближение Веккьи.

Методы разреженной ковариации

Эти методы приближают истинную модель таким образом, чтобы ковариационная матрица была разреженной. Как правило, каждый метод предлагает собственный алгоритм, который в полной мере использует шаблон разреженности в ковариационной матрице. Двумя выдающимися членами этого класса подходов являются сужение ковариации и разделение домена. Первый метод обычно требует метрики над и предполагает, что для у нас есть только если для некоторого радиуса . Второй метод предполагает наличие такой, что . Затем при соответствующем распределении индексов между элементами разбиения и упорядочении элементов матрица ковариаций является блочно-диагональной.

Методы разреженной точности

Это семейство методов предполагает, что матрица точности является разреженным и обычно указывает, какие из его элементов не равны нулю. Это приводит к быстрой инверсии, потому что нужно рассчитывать только эти элементы. Некоторые из выдающихся приближений в этой категории включают подход, основанный на эквивалентности гауссовских процессов с функцией ковариации Матерна и стохастических уравнений в частных производных, периодического вложения и гауссовских процессов ближайшего соседа. Первый метод применяется в случае и когда имеет определенную метрику и использует тот факт, что выполняется свойство Маркова, которое делает очень редко. Второй расширяет область и использует дискретное преобразование Фурье для декорреляции данных, что приводит к диагональной матрице точности. Третий требует метрики на и использует так называемый эффект экранирования, предполагая, что только если , для некоторых .

Методы разреженного фактора Холецкого

Во многих практических приложениях расчет сначала заменяется вычислением , фактор Холецкого , а во-вторых, обратное . Известно, что это более стабильно, чем простая инверсия. По этой причине некоторые авторы сосредотачиваются на построении разреженной аппроксимации фактора Холецкого матриц точности или ковариации. Одним из наиболее распространенных методов в этом классе является Приближение Веккьи и его обобщение. Эти подходы определяют оптимальное упорядочение индексов и, следовательно, элементов а затем принять структуру зависимостей, которая минимизирует заполнение фактора Холецкого. В этой структуре могут быть выражены несколько других методов: приближение с несколькими разрешениями (MRA), гауссовский процесс ближайшего соседа, модифицированный прогнозный процесс и полномасштабное приближение.

Низкоранговые методы

Хотя этот подход включает в себя множество методов, общим допущением, лежащим в основе всех них, является предположение, что , представляющий интерес гауссовский процесс, фактически имеет низкий ранг. Точнее, предполагается, что существует набор индексов такой, что любой другой набор индексов

куда является матрица и и - диагональная матрица. В зависимости от метода и применения различные способы выбора Были предложены. Обычно выбрано намного меньше, чем что означает, что вычислительные затраты на инвертирование управляема ( вместо ).

В более общем плане, помимо выбора , можно также найти матрица и предположим, что , куда находятся значения гауссовского процесса, возможно, не зависящие от . В эту категорию попадают многие методы машинного обучения, такие как подмножество регрессоров (SoR), вектор релевантности, гауссовский процесс с разреженным спектром и другие, и они обычно различаются по способу получения. и .

Иерархические методы

Общий принцип иерархических аппроксимаций состоит в многократном применении какого-либо другого метода, так что каждое последующее применение улучшает качество приближения. Несмотря на то, что они могут быть выражены как набор статистических допущений, они часто описываются в терминах аппроксимации иерархической матрицы (HODLR) или разложения базисных функций (LatticeKrig, MRA, вейвлеты). Подход с иерархической матрицей часто можно представить как повторное применение аппроксимации низкого ранга к последовательно уменьшающимся подмножествам набора индексов. . Расширение базисных функций основано на использовании функций с компактной поддержкой. Затем эти особенности могут быть использованы алгоритмом, который проходит через последовательные уровни аппроксимации. В наиболее благоприятных условиях некоторые из этих методов могут обеспечить квазилинейный () сложность.

Единая структура

Вероятностные графические модели обеспечивают удобную основу для сравнения приближений на основе моделей. В этом контексте значение процесса по индексу тогда может быть представлена ​​вершиной в ориентированном графе, а ребра соответствуют членам факторизации совместной плотности . В общем, когда не предполагается никаких зависимостей, совместное распределение вероятностей может быть представлено произвольным направленным ациклическим графом. Затем использование определенного приближения может быть выражено как определенный способ упорядочивания вершин и добавления или удаления определенных ребер.

Методы без статистической модели

Этот класс методов не определяет статистическую модель и не налагает допущений на существующую. Три основных члена этой группы - это алгоритм метакригинга, алгоритм заполнения пробелов и подход локального приближенного гауссовского процесса. Первый разбивает набор индексов на составные части , вычисляет условное распределение для каждого из этих компонентов отдельно, а затем использует геометрическую медиану условного PDF-файлы объединить их. Второй основан на квантильной регрессии с использованием значений процесса, близких к значению, которое пытаются предсказать, где расстояние измеряется в терминах метрики на множестве индексов. Локальный приближенный гауссовский процесс использует аналогичную логику, но строит допустимый стохастический процесс на основе этих соседних значений.

Рекомендации

  • Лю, Хайтао; Онг, Ю-Сун; Шен, Сяобо; Цай, Цзяньфэй (2020). «Когда гауссовский процесс встречает большие данные: обзор масштабируемого GPS». Транзакции IEEE в нейронных сетях и обучающих системах. PP: 1–19. arXiv:1807.01065. Дои:10.1109 / TNNLS.2019.2957109. PMID  31944966.
  • Хитон, Мэтью Дж .; Датта, Абхируп; Финли, Эндрю О .; Феррер, Рейнхард; Гиннесс, Джозеф; Гуханийоги, Раджарши; Гербер, Флориан; Gramacy, Роберт Б .; Хаммерлинг, Дорит; Кацфус, Матиас; Линдгрен, Финн; Ничка, Дуглас В .; Солнце, Фуронг; Заммит-Мангион, Эндрю (2018). «Конкурс тематических исследований среди методов анализа больших пространственных данных». Журнал сельскохозяйственной, биологической и экологической статистики. 24 (3): 398–425. Дои:10.1007 / s13253-018-00348-w. ISSN  1085-7117.