Методы ядра для векторного вывода - Википедия - Kernel methods for vector output

Методы ядра представляют собой хорошо зарекомендовавший себя инструмент для анализа взаимосвязи между входными данными и соответствующими выходными данными функции. Ядра инкапсулируют свойства функций в вычислительно эффективный способ и позволяют алгоритмам легко менять местами функции различной сложности.

В типичном машинное обучение алгоритмы эти функции производят скалярный вывод. Недавнее развитие ядерных методов для функций с векторным выводом связано, по крайней мере частично, с интересом к одновременному решению связанных проблем. Ядра, которые фиксируют взаимосвязь между проблемами, позволяют им заимствовать силу друг от друга. Алгоритмы этого типа включают многозадачное обучение (также называется обучением с несколькими выходами или векторным обучением), передача обучения, и со-кригинг. Классификация с несколькими метками может интерпретироваться как отображение входных данных в (двоичные) кодирующие векторы с длиной, равной количеству классов.

В Гауссовские процессы, ядра называются ковариационные функции. Функции с несколькими выходами соответствуют рассмотрению нескольких процессов. Видеть Байесовская интерпретация регуляризации для связи между двумя перспективами.

История

История изучения векторных функций тесно связана с передача обучения - хранение знаний, полученных при решении одной проблемы, и их применение к другой, но связанной проблеме. Фундаментальная мотивация трансфертного обучения в области машинного обучения обсуждалась на семинаре NIPS-95 на тему «Обучение, чтобы учиться», который был посвящен необходимости в методах машинного обучения на протяжении всей жизни, которые сохраняют и повторно используют ранее полученные знания. Исследования трансфертного обучения привлекали большое внимание с 1995 года под разными названиями: обучение обучению, непрерывное обучение, передача знаний, индуктивный перенос, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, индуктивное смещение, основанное на знаниях, метаобучение и инкрементное /кумулятивное обучение.^[1] Интерес к изучению векторнозначных функций был вызван, в частности, многозадачным обучением, фреймворком, который пытается изучить несколько, возможно, разные задачи одновременно.

Большая часть первоначальных исследований многозадачного обучения в сообществе машинного обучения носила алгоритмический характер и применялась к таким методам, как нейронные сети, деревья решений и $k$ -ближайшие соседи в 1990-е гг.^[2] Использование вероятностных моделей и гауссовских процессов было впервые применено и в значительной степени разработано в контексте геостатистики, где прогнозирование по выходным векторным данным известно как кокригинг.^[3]^[4]^[5] Геостатистические подходы к многомерному моделированию в основном сформулированы на основе линейной модели корегионализации (LMC), генеративного подхода к разработке достоверных ковариационных функций, который использовался для многомерной регрессии и в статистике для компьютерной эмуляции дорогостоящих многомерных компьютерных кодов. Литература по регуляризации и теории ядра для векторных функций появилась в 2000-х годах.^[6]^[7] Хотя байесовские подходы и подходы к регуляризации были разработаны независимо, на самом деле они тесно связаны.^[8]

Обозначение

В этом контексте задача обучения с учителем состоит в том, чтобы изучить функцию ${ displaystyle f}$ который лучше всего предсказывает выходные векторные значения ${ displaystyle mathbf {y_ {i}}}$ данные входы (данные) ${ displaystyle mathbf {x_ {i}}}$ .

{ Displaystyle е ( mathbf {x_ {i}}) = mathbf {y_ {i}}}

за

{ Displaystyle я = 1, ldots, N}

{ displaystyle mathbf {x_ {i}} in { mathcal {X}}}

, пространство ввода (например,

{ Displaystyle { mathcal {X}} = mathbb {R} ^ {p}}

)

{ displaystyle mathbf {y_ {i}} in mathbb {R} ^ {D}}

В общем, каждый компонент ( ${ displaystyle mathbf {y_ {i}}}$ ), могли иметь разные входные данные ( ${ displaystyle mathbf {x_ {d, i}}}$ ) с разной мощностью ( ${ displaystyle p}$ ) и даже разные входные пространства ( ${ displaystyle { mathcal {X}}}$ ).^[8]В геостатистической литературе этот случай называется гетеротопный, и использует изотопический чтобы указать, что каждый компонент выходного вектора имеет одинаковый набор входов.^[9]

Здесь для простоты обозначений мы предполагаем, что количество и размер выборки данных для каждого вывода одинаковы.

Перспектива регуляризации^[8]^[10]^[11]

С точки зрения регуляризации проблема состоит в том, чтобы научиться ${ displaystyle f _ {*}}$ принадлежащий к воспроизводящее ядро гильбертова пространства вектор-функций ( ${ displaystyle { mathcal {H}}}$ ). Это похоже на скалярный случай Тихоновская регуляризация, с осторожностью в обозначениях.

	Векторнозначный случай	Скалярный случай
Воспроизведение ядра	${ displaystyle mathbf {K}: { mathcal {X}} times { mathcal {X}} rightarrow mathbb {R} ^ {D times D}}$	${ Displaystyle к: { mathcal {X}} times { mathcal {X}} rightarrow mathbb {R}}$
Проблема обучения	${ displaystyle f _ {*} = operatorname {argmin} sum limits _ {j = 1} ^ {D} { frac {1} {N}} sum limits _ {i = 1} ^ {N } (f_ {j} ( mathbf {x_ {i}}) -y_ {j, i}) ^ {2} + lambda Vert mathbf {f} Vert _ { mathbf {K}} ^ { 2}}$	${ displaystyle f _ {*} = operatorname {argmin} { frac {1} {N}} sum limits _ {i = 1} ^ {N} (f ( mathbf {x_ {i}}) - y_ {i}) ^ {2} + lambda Vert mathbf {f} Vert _ {k} ^ {2}}$
Решение (получено через теорема о представителе ${ displaystyle ^ { dagger}}$ )	${ displaystyle f _ {*} ( mathbf {x}) = sum limits _ {i = 1} ^ {N} mathbf {K} ( mathbf {x_ {i}}, mathbf {x}) c_ {i}}$ с ${ displaystyle { bar { mathbf {c}}} = ( mathbf {K} ( mathbf {X}, mathbf {X}) + lambda N mathbf {(} I)) ^ {- 1 } { bar { mathbf {y}}}}$ , куда ${ displaystyle { bar { mathbf {c}}} { text {and}} { bar { mathbf {y}}}}$ - это коэффициенты и выходные векторы, сцепленные для образования ${ displaystyle ND}$ векторы и ${ displaystyle mathbf {K} ( mathbf {X}, mathbf {X}) { text {является}} ND times ND}$ матрица ${ Displaystyle N раз N}$ блоки: ${ Displaystyle ( mathbf {K} ( mathbf {x_ {i}}, mathbf {x_ {j}})) _ {d, d '}}$	${ displaystyle f _ {} ( mathbf {x}) = sum limits _ {i = 1} ^ {N} k ( mathbf {x_ {i}}, mathbf {x}) c_ {i} = mathbf {k} _ { mathbf {x}} ^ { intercal} mathbf {c}}$ Решить для ${ displaystyle mathbf {c}}$ взяв производную задачи обучения, установив ее равной нулю и подставив в приведенное выше выражение для ${ displaystyle f _ {}}$ : ${ Displaystyle mathbf {c} = ( mathbf {K} + lambda I) ^ {- 1} mathbf {y}}$ куда ${ displaystyle mathbf {K} _ {ij} = k ( mathbf {x_ {i}}, mathbf {x_ {j}}) = i ^ { text {th}} { text {element of} } mathbf {k} _ { mathbf {x_ {j}}}}$

${ displaystyle ^ { dagger}}$ Можно, хотя и нетривиально, показать, что теорема о представителе верна и для регуляризации Тихонова в векторнозначной ситуации.^[8]

Отметим, что матричнозначное ядро ${ displaystyle mathbf {K}}$ также может быть определено скалярным ядром ${ displaystyle R}$ на пространстве ${ Displaystyle { mathcal {X}} раз {1, ldots, D }}$ . An изометрия существует между гильбертовыми пространствами, связанными с этими двумя ядрами:

{ displaystyle ( mathbf {K} (x, x ')) _ {d, d'} = R ((x, d), (x ', d'))}

Перспектива гауссовского процесса

Оценка структуры векторной регуляризации также может быть получена с байесовской точки зрения с использованием методов гауссовского процесса в случае конечномерного Воспроизведение ядра гильбертова пространства. Вывод аналогичен скалярнозначному случаю Байесовская интерпретация регуляризации. Вектор-функция ${ displaystyle { textbf {f}}}$ , состоящий из ${ displaystyle D}$ выходы ${ displaystyle left {f_ {d} right } _ {d = 1} ^ {D}}$ , предполагается, что он следует гауссовскому процессу:

{ displaystyle { textbf {f}} sim { mathcal {GP}} ({ textbf {m}}, { textbf {K}})}

куда ${ displaystyle { textbf {m}}: { mathcal {X}} to { textbf {R}} ^ {D}}$ теперь вектор средних функций ${ displaystyle left {m_ {d} ({ textbf {x}}) right } _ {d = 1} ^ {D}}$ для выходов и ${ displaystyle { textbf {K}}}$ положительно определенная матричнозначная функция с элементом ${ displaystyle ({ textbf {K}} ({ textbf {x}}, { textbf {x}} ')) _ {d, d'}}$ соответствует ковариации между выходами ${ displaystyle f_ {d} ({ textbf {x}})}$ и ${ displaystyle f_ {d '} ({ textbf {x}}')}$ .

Для набора входов ${ displaystyle { textbf {X}}}$ , априорное распределение по вектору ${ displaystyle { textbf {f}} ({ textbf {X}})}$ дан кем-то ${ displaystyle { mathcal {N}} ({ textbf {m}} ({ textbf {X}}), { textbf {K}} ({ textbf {X}}, { textbf {X}) }))}$ , куда ${ displaystyle { textbf {m}} ({ textbf {X}})}$ является вектором, который объединяет средние векторы, связанные с выходами и ${ displaystyle { textbf {K}} ({ textbf {X}}, { textbf {X}})}$ представляет собой блочно-разделенную матрицу. Распределение выходов принято гауссовым:

{ displaystyle p ({ textbf {y}} mid { textbf {f}}, { textbf {x}}, Sigma) = { mathcal {N}} ({ textbf {f}} ( { textbf {x}}), Sigma)}

куда ${ displaystyle Sigma in { mathcal { textbf {R}}} ^ {D times D}}$ диагональная матрица с элементами ${ displaystyle left { sigma _ {d} ^ {2} right } _ {d = 1} ^ {D}}$ указание шума для каждого выхода. Используя эту форму для вероятности, прогнозирующее распределение для нового вектора ${ displaystyle { textbf {x}} _ {*}}$ является:

{ displaystyle p ({ textbf {f}} ({ textbf {x}} _ {*}) mid { textbf {S}}, { textbf {f}}, { textbf {x}} _ {*}, phi) = { mathcal {N}} ({ textbf {f}} _ {*} ({ textbf {x}} _ {*}), { textbf {K}} _ {*} ({ textbf {x}} _ {*}, { textbf {x}} _ {*}))}

куда ${ displaystyle { textbf {S}}}$ это обучающие данные, а ${ displaystyle phi}$ набор гиперпараметров для ${ displaystyle { textbf {K}} ({ textbf {x}}, { textbf {x}} ')}$ и ${ displaystyle Sigma}$ .

Уравнения для ${ displaystyle { textbf {f}} _ {*}}$ и ${ displaystyle { textbf {K}} _ {*}}$ затем можно получить:

{ displaystyle { textbf {f}} _ {*} ({ textbf {x}} _ {*}) = { textbf {K}} _ {{ textbf {x}} _ {*}} ^ {T} ({ textbf {K}} ({ textbf {X}}, { textbf {X}}) + { boldsymbol { Sigma}}) ^ {- 1} { bar { textbf { y}}}}

{ displaystyle { textbf {K}} _ {*} ({ textbf {x}} _ {*}, { textbf {x}} _ {*}) = { textbf {K}} ({ textbf {x}} _ {*}, { textbf {x}} _ {*}) - { textbf {K}} _ {{ textbf {x}} _ {*}} ({ textbf {K }} ({ textbf {X}}, { textbf {X}}) + { boldsymbol { Sigma}}) ^ {- 1} { textbf {K}} _ {{ textbf {x}} _ {*}} ^ {T}}

куда ${ displaystyle { boldsymbol { Sigma}} = Sigma otimes { textbf {I}} _ {N}, { textbf {K}} _ {{ textbf {x}} _ {*}} в { mathcal { textbf {R}}} ^ {D times ND}}$ есть записи ${ displaystyle ({ textbf {K}} ({ textbf {x}} _ {*}, { textbf {x}} _ {j})) _ {d, d '}}$ за ${ Displaystyle J = 1, cdots, N}$ и ${ displaystyle d, d '= 1, cdots, D}$ . Обратите внимание, что предсказатель ${ displaystyle { textbf {f}} ^ {*}}$ идентичен предиктору, полученному в структуре регуляризации. Для негауссовских вероятностей необходимы различные методы, такие как аппроксимация Лапласа и вариационные методы, чтобы аппроксимировать оценки.

Примеры ядер

Отделяемый

Простой, но широко применимый класс ядер с несколькими выходами можно разделить на продукт ядра во входном пространстве и ядра, представляющего корреляции между выходами:^[8]

{ displaystyle ( mathbf {K} ( mathbf {x}, mathbf {x '})) _ {d, d'} = k ( mathbf {x}, mathbf {x '}) k_ {T } (d, d ')}

{ displaystyle k}

: скалярное ядро на

{ Displaystyle { mathcal {X}} times { mathcal {X}}}

{ displaystyle k_ {T}}

: скалярное ядро на

{ Displaystyle {1, ldots, D } times {1, ldots, D }}

В матричной форме: ${ Displaystyle mathbf {K} ( mathbf {x}, mathbf {x '}) = k ( mathbf {x}, mathbf {x'}) mathbf {B}}$ куда ${ displaystyle mathbf {B}}$ это ${ Displaystyle D раз D}$ симметричная и положительно полуопределенная матрица. Обратите внимание, установка ${ displaystyle mathbf {B}}$ к единичной матрице обрабатывает выходные данные как не связанные и эквивалентно отдельному решению задач скалярного вывода.

Для более общей формы добавление нескольких из этих ядер дает сумма разделяемых ядер (Ядра SoS).

Из литературы по регуляризации^[8]^[10]^[12]^[13]^[14]

Получено из регуляризатора

Один из способов получения ${ displaystyle k_ {T}}$ состоит в том, чтобы указать регуляризатор что ограничивает сложность ${ displaystyle f}$ желаемым образом, а затем получить соответствующее ядро. Для некоторых регуляризаторов это ядро окажется разделимым.

Регуляризатор смешанного действия

{ Displaystyle R ( mathbf {f}) = A _ { omega} (C _ { omega} sum limits _ {l = 1} ^ {D} | f_ {l} | _ {k} ^ {2} + omega D sum limits _ {l = 1} ^ {D} | f_ {l} - { bar {f}} | _ {k} ^ {2})}

куда:

${ Displaystyle A _ { omega} = { гидроразрыва {1} {2 (1- omega) (1- omega + omega D)}}}$
${ Displaystyle C _ { omega} = (2-2 omega + omega D)}$
${ displaystyle { bar {f}} = { frac {1} {D}} sum limits _ {q = 1} ^ {D} f_ {q}}$
${ Displaystyle К _ { omega} (х, х ') = к (х, х') ( omega mathbf {1} + (1- omega) mathbf {I} _ {D}}$

куда ${ displaystyle mathbf {1} { text {is a}} D times D}$ матрица со всеми элементами, равными 1.

Этот регуляризатор представляет собой комбинацию ограничения сложности каждого компонента оценки ( ${ displaystyle f_ {l}}$ ) и заставляя каждый компонент оценщика быть близким к среднему значению всех компонентов. Параметр ${ displaystyle omega = 0}$ рассматривает все компоненты как независимые и аналогично решению скалярных задач по отдельности. Параметр ${ displaystyle omega = 1}$ предполагает, что все компоненты объясняются одной и той же функцией.

Кластерный регуляризатор

{ Displaystyle R ( mathbf {f}) = varepsilon _ {1} sum _ {c = 1} ^ {r} sum _ {l in I (c)} | f_ {l} - { bar {f_ {c}}} | _ {k} ^ {2} + varepsilon _ {2} sum limits _ {c = 1} ^ {r} m_ {c} | { bar { е_ {c}}} | _ {k} ^ {2}}

куда:

${ displaystyle I (c)}$ это индексный набор компонентов, принадлежащих кластеру ${ displaystyle c}$
${ displaystyle m_ {c}}$ мощность кластера ${ displaystyle c}$
${ displaystyle { bar {f_ {c}}} = { frac {1} {m_ {c}}} sum limits _ {q in I (c)} f_ {q}}$
${ displaystyle mathbf {M} _ {l, q} = { frac {1} {m_ {c}}}}$ если ${ displaystyle l}$ и ${ displaystyle q}$ оба принадлежат кластеру ${ displaystyle c}$ ( ${ displaystyle mathbf {M} _ {l, q} = 0}$ иначе
${ Displaystyle К (х, х ') = К (х, х') mathbf {G} ^ { dagger}}$

куда ${ displaystyle mathbf {G} _ {l, q} = varepsilon _ {1} delta _ {lq} + ( varepsilon _ {2} - varepsilon _ {1}) mathbf {M} _ { l, q}}$

Этот регуляризатор делит компоненты на ${ displaystyle r}$ кластеры и заставляет компоненты в каждом кластере быть похожими.

Регуляризатор графа

{ Displaystyle R ( mathbf {f}) = { frac {1} {2}} sum limits _ {l, q = 1} ^ {D} Vert f_ {l} -f_ {q} Vert _ {k} ^ {2} mathbf {M} _ {lq} + sum limits _ {l = 1} ^ {D} Vert f_ {l} Vert _ {k} ^ {2} mathbf {M} _ {l, l}}

куда ${ displaystyle mathbf {M} { text {is a}} D times D}$ матрица весов, кодирующая сходства между компонентами

{ Displaystyle К (х, х ') = К (х, х') mathbf {L} ^ { dagger}}

куда ${ Displaystyle mathbf {L} = mathbf {D} - mathbf {M}}$ , ${ displaystyle mathbf {D} _ {l, q} = delta _ {l, q} ( sum limits _ {h = 1} ^ {D} mathbf {M} _ {l, h} + mathbf {M} _ {l, q})}$

Примечание, ${ displaystyle mathbf {L}}$ график лапласианин. Смотрите также: ядро графа.

Узнал из данных

Несколько подходов к обучению ${ displaystyle mathbf {B}}$ из данных были предложены.^[8] К ним относятся: выполнение предварительного шага вывода для оценки ${ displaystyle mathbf {B}}$ из данных обучения,^[9] предложение учиться ${ displaystyle mathbf {B}}$ и ${ displaystyle mathbf {f}}$ вместе на основе кластерного регуляризатора,^[15] и подходы, основанные на разреженности, которые предполагают, что необходимы лишь некоторые из функций.^[16]^[17]

Из байесовской литературы

Линейная модель корегионализации (LMC)

В LMC выходы выражаются как линейные комбинации независимых случайных функций, так что результирующая функция ковариации (по всем входам и выходам) является допустимой положительной полуопределенной функцией. Предполагая ${ displaystyle D}$ выходы ${ displaystyle left {f_ {d} ({ textbf {x}}) right } _ {d = 1} ^ {D}}$ с ${ displaystyle { textbf {x}} in { mathcal { textbf {R}}} ^ {p}}$ , каждый ${ displaystyle f_ {d}}$ выражается как:

{ displaystyle f_ {d} ({ textbf {x}}) = sum _ {q = 1} ^ {Q} {a_ {d, q} u_ {q} ({ textbf {x}})} }

куда ${ displaystyle a_ {d, q}}$ - скалярные коэффициенты, а независимые функции ${ displaystyle u_ {q} ({ textbf {x}})}$ имеют нулевое среднее значение и ковариацию ${ displaystyle [u_ {q} ({ textbf {x}}), u_ {q '} ({ textbf {x}}')] = k_ {q} ({ textbf {x}}, { textbf {x}} ')}$ если ${ displaystyle q = q '}$ и 0 в противном случае. Перекрестная ковариация между любыми двумя функциями ${ displaystyle f_ {d} ({ textbf {x}})}$ и ${ displaystyle f_ {d '} ({ textbf {x}})}$ тогда можно записать как:

{ displaystyle operatorname {cov} [f_ {d} ({ textbf {x}}), f_ {d '} ({ textbf {x}}')] = sum _ {q = 1} ^ { Q} { sum _ {i = 1} ^ {R_ {q}} {a_ {d, q} ^ {i} a_ {d ', q} ^ {i} k_ {q} ({ textbf {x }}, { textbf {x}} ')}} = sum _ {q = 1} ^ {Q} {b_ {d, d'} ^ {q} k_ {q} ({ textbf {x} }, { textbf {x}} ')}}

где функции ${ displaystyle u_ {q} ^ {i} ({ textbf {x}})}$ , с ${ Displaystyle д = 1, cdots, Q}$ и ${ Displaystyle я = 1, cdots, R_ {q}}$ имеют нулевое среднее значение и ковариацию ${ displaystyle [u_ {q} ^ {i} ({ textbf {x}}), u_ {q '} ^ {i'} ({ textbf {x}}) '] = k_ {q} ({ textbf {x}}, { textbf {x}} ')}$ если ${ Displaystyle я = я '}$ и ${ displaystyle q = q '}$ . Но ${ displaystyle operatorname {cov} [f_ {d} ({ textbf {x}}), f_ {d '} ({ textbf {x}}')]}$ дан кем-то ${ displaystyle ({ textbf {K}} ({ textbf {x}}, { textbf {x}} ')) _ {d, d'}}$ . Таким образом, ядро ${ displaystyle { textbf {K}} ({ textbf {x}}, { textbf {x}} ')}$ теперь можно выразить как

{ displaystyle { textbf {K}} ({ textbf {x}}, { textbf {x}} ') = sum _ {q = 1} ^ {Q} {{ textbf {B}} _ {q} k_ {q} ({ textbf {x}}, { textbf {x}} ')}}

где каждый ${ displaystyle { textbf {B}} _ {q} in { mathcal { textbf {R}}} ^ {D times D}}$ известна как матрица корегионализации. Следовательно, ядро, полученное из LMC, является суммой произведений двух ковариационных функций, одна из которых моделирует зависимость между выходами, независимо от входного вектора. ${ displaystyle { textbf {x}}}$ (матрица корегионализации ${ displaystyle { textbf {B}} _ {q}}$ ), и тот, который моделирует входную зависимость, независимо от ${ displaystyle left {f_ {d} ({ textbf {x}}) right } _ {d = 1} ^ {D}}$ (ковариационная функция ${ displaystyle k_ {q} ({ textbf {x}}, { textbf {x}} ')}$ ).

Модель внутренней регионализации (ICM)

ICM - это упрощенная версия LMC с ${ displaystyle Q = 1}$ . ICM предполагает, что элементы ${ displaystyle b_ {d, d '} ^ {q}}$ матрицы корегионализации ${ displaystyle mathbf {B} _ {q}}$ можно записать как ${ displaystyle b_ {d, d '} ^ {q} = v_ {d, d'} b_ {q}}$ , для некоторых подходящих коэффициентов ${ displaystyle v_ {d, d '}}$ . С помощью этой формы для ${ displaystyle b_ {d, d '} ^ {q}}$ :

{ displaystyle operatorname {cov} left [f_ {d} ( mathbf {x}), f_ {d '} ( mathbf {x}') right] = sum _ {q = 1} ^ { Q} {v_ {d, d '} b_ {q} k_ {q} ( mathbf {x}, mathbf {x}')} = v_ {d, d '} sum _ {q = 1} ^ {Q} {b_ {q} k_ {q} ( mathbf {x}, mathbf {x} ')} = v_ {d, d'} k ( mathbf {x}, mathbf {x} ') }

куда

{ Displaystyle к ( mathbf {x}, mathbf {x} ') = sum _ {q = 1} ^ {Q} {b_ {q} k_ {q} ( mathbf {x}, mathbf { Икс} ')}.}

В этом случае коэффициенты

{ displaystyle v_ {d, d '} = sum _ {i = 1} ^ {R_ {1}} {a_ {d, 1} ^ {i} a_ {d', 1} ^ {i}} = б_ {д, д '} ^ {1}}

и матрица ядра для нескольких выходов становится ${ Displaystyle mathbf {K} ( mathbf {x}, mathbf {x} ') = k ( mathbf {x}, mathbf {x}') mathbf {B}}$ . ICM гораздо более ограничен, чем LMC, поскольку предполагает, что каждая базовая ковариация ${ Displaystyle к_ {д} ( mathbf {x}, mathbf {x} ')}$ в равной степени способствует построению автоковариаций и кросс-ковариаций для выходов. Однако вычисления, необходимые для вывода, значительно упрощаются.

Полупараметрическая модель латентного фактора (SLFM)

Другой упрощенный вариант LMC - это модель полупараметрического латентного фактора (SLFM), которая соответствует настройке ${ displaystyle R_ {q} = 1}$ (вместо ${ displaystyle Q = 1}$ как в ICM). Таким образом, каждая скрытая функция ${ displaystyle u_ {q}}$ имеет свою ковариацию.

Неразборный

Несмотря на простоту, структура разделяемых ядер может быть слишком ограничивающей для некоторых проблем.

Известные примеры неразделимых ядер в литература по регуляризации включают:

Матричнозначные экспоненциально квадратичные (EQ) ядра, предназначенные для оценки расхождение -бесплатно или завиток -свободные векторные поля (или их выпуклая комбинация)^[8]^[18]
Ядра определены трансформации^[8]^[19]

в Байесовская перспектива, LMC создает разделяемое ядро, потому что выходные функции вычисляются в точке ${ displaystyle { textbf {x}}}$ зависят только от значений скрытых функций при ${ displaystyle { textbf {x}}}$ . Нетривиальный способ смешать скрытые функции - это свертка базового процесса с помощью сглаживающего ядра. Если базовый процесс является гауссовским, свернутый процесс также является гауссовым. Следовательно, мы можем использовать свертки для построения ковариационных функций.^[20] Этот метод производства неразделимых ядер известен как процесс свертки. Свертки процессов были введены для множественных выходов в сообществе машинного обучения как «зависимые гауссовские процессы».^[21]

Выполнение

При реализации алгоритма с использованием любого из указанных выше ядер необходимо учитывать практические соображения по настройке параметров и обеспечению разумного времени вычислений.

Перспектива регуляризации

Подходя с точки зрения регуляризации, настройка параметров аналогична случаю со скалярными значениями и обычно может быть выполнена с помощью перекрестная проверка. Решение требуемой линейной системы обычно требует больших затрат памяти и времени. Если ядро отделимо, преобразование координат может преобразовать ${ Displaystyle mathbf {K} ( mathbf {X}, mathbf {X})}$ к блочно-диагональная матрица, что значительно снижает вычислительную нагрузку за счет решения независимых подзадач D (плюс собственное разложение из ${ displaystyle mathbf {B}}$ ). В частности, для функции потерь по методу наименьших квадратов (регуляризация Тихонова) существует решение в замкнутой форме для ${ displaystyle { bar { mathbf {c}}}}$ :^[8]^[14]

{ displaystyle { bar { mathbf {c}}} ^ {d} = left (k ( mathbf {X}, mathbf {X}) + { frac { lambda _ {N}} { sigma _ {d}}} mathbf {I} right) ^ {- 1} { frac {{ bar { mathbf {y}}} ^ {d}} { sigma _ {d}}}}

Байесовская перспектива

Существует множество работ, связанных с оценкой параметров гауссовских процессов. Некоторые методы, такие как максимизация предельного правдоподобия (также известная как аппроксимация свидетельств, максимальная вероятность типа II, эмпирический байесовский метод) и метод наименьших квадратов, дают точечные оценки вектора параметров. ${ displaystyle phi}$ . Есть также работы, использующие полный байесовский вывод путем присвоения априорных значений ${ displaystyle phi}$ и вычисление апостериорного распределения с помощью процедуры выборки. Для негауссовских правдоподобий не существует решения в закрытой форме для апостериорного распределения или для маргинального правдоподобия. Однако предельное правдоподобие может быть аппроксимировано в рамках схем аппроксимации Лапласа, вариационного Байеса или распространения математических ожиданий (EP) для классификации множественных выходных данных и использоваться для нахождения оценок гиперпараметров.

Основная вычислительная проблема с байесовской точки зрения та же, что и в теории регуляризации обращения матрицы

{ displaystyle { overline { mathbf {K} ( mathbf {X}, mathbf {X})}} = mathbf {K} ( mathbf {X}, mathbf {X}) + { boldsymbol { Sigma}}.}

Этот шаг необходим для вычисления предельного правдоподобия и прогнозного распределения. Для большинства предлагаемых методов аппроксимации для сокращения вычислений получаемая вычислительная эффективность не зависит от конкретного используемого метода (например, LMC, свертка процесса), используемого для вычисления ковариационной матрицы с несколькими выходами. Краткое изложение различных методов уменьшения вычислительной сложности в гауссовских процессах с несколькими выходами представлено в.^[8]

Методы ядра для векторного вывода - Википедия - Kernel methods for vector output

Содержание

История