Методы ядра для векторного вывода - Википедия - Kernel methods for vector output

Методы ядра представляют собой хорошо зарекомендовавший себя инструмент для анализа взаимосвязи между входными данными и соответствующими выходными данными функции. Ядра инкапсулируют свойства функций в вычислительно эффективный способ и позволяют алгоритмам легко менять местами функции различной сложности.

В типичном машинное обучение алгоритмы эти функции производят скалярный вывод. Недавнее развитие ядерных методов для функций с векторным выводом связано, по крайней мере частично, с интересом к одновременному решению связанных проблем. Ядра, которые фиксируют взаимосвязь между проблемами, позволяют им заимствовать силу друг от друга. Алгоритмы этого типа включают многозадачное обучение (также называется обучением с несколькими выходами или векторным обучением), передача обучения, и со-кригинг. Классификация с несколькими метками может интерпретироваться как отображение входных данных в (двоичные) кодирующие векторы с длиной, равной количеству классов.

В Гауссовские процессы, ядра называются ковариационные функции. Функции с несколькими выходами соответствуют рассмотрению нескольких процессов. Видеть Байесовская интерпретация регуляризации для связи между двумя перспективами.

История

История изучения векторных функций тесно связана с передача обучения - хранение знаний, полученных при решении одной проблемы, и их применение к другой, но связанной проблеме. Фундаментальная мотивация трансфертного обучения в области машинного обучения обсуждалась на семинаре NIPS-95 на тему «Обучение, чтобы учиться», который был посвящен необходимости в методах машинного обучения на протяжении всей жизни, которые сохраняют и повторно используют ранее полученные знания. Исследования трансфертного обучения привлекали большое внимание с 1995 года под разными названиями: обучение обучению, непрерывное обучение, передача знаний, индуктивный перенос, многозадачное обучение, консолидация знаний, контекстно-зависимое обучение, индуктивное смещение, основанное на знаниях, метаобучение и инкрементное /кумулятивное обучение.[1] Интерес к изучению векторнозначных функций был вызван, в частности, многозадачным обучением, фреймворком, который пытается изучить несколько, возможно, разные задачи одновременно.

Большая часть первоначальных исследований многозадачного обучения в сообществе машинного обучения носила алгоритмический характер и применялась к таким методам, как нейронные сети, деревья решений и k-ближайшие соседи в 1990-е гг.[2] Использование вероятностных моделей и гауссовских процессов было впервые применено и в значительной степени разработано в контексте геостатистики, где прогнозирование по выходным векторным данным известно как кокригинг.[3][4][5] Геостатистические подходы к многомерному моделированию в основном сформулированы на основе линейной модели корегионализации (LMC), генеративного подхода к разработке достоверных ковариационных функций, который использовался для многомерной регрессии и в статистике для компьютерной эмуляции дорогостоящих многомерных компьютерных кодов. Литература по регуляризации и теории ядра для векторных функций появилась в 2000-х годах.[6][7] Хотя байесовские подходы и подходы к регуляризации были разработаны независимо, на самом деле они тесно связаны.[8]

Обозначение

В этом контексте задача обучения с учителем состоит в том, чтобы изучить функцию который лучше всего предсказывает выходные векторные значения данные входы (данные) .

за
, пространство ввода (например, )

В общем, каждый компонент (), могли иметь разные входные данные () с разной мощностью () и даже разные входные пространства ().[8]В геостатистической литературе этот случай называется гетеротопный, и использует изотопический чтобы указать, что каждый компонент выходного вектора имеет одинаковый набор входов.[9]

Здесь для простоты обозначений мы предполагаем, что количество и размер выборки данных для каждого вывода одинаковы.

Перспектива регуляризации[8][10][11]

С точки зрения регуляризации проблема состоит в том, чтобы научиться принадлежащий к воспроизводящее ядро ​​гильбертова пространства вектор-функций (). Это похоже на скалярный случай Тихоновская регуляризация, с осторожностью в обозначениях.

Векторнозначный случайСкалярный случай
Воспроизведение ядра
Проблема обучения
Решение

(получено через теорема о представителе)

с ,
куда - это коэффициенты и выходные векторы, сцепленные для образования векторы и матрица блоки:

Решить для взяв производную задачи обучения, установив ее равной нулю и подставив в приведенное выше выражение для :

куда

Можно, хотя и нетривиально, показать, что теорема о представителе верна и для регуляризации Тихонова в векторнозначной ситуации.[8]

Отметим, что матричнозначное ядро также может быть определено скалярным ядром на пространстве . An изометрия существует между гильбертовыми пространствами, связанными с этими двумя ядрами:

Перспектива гауссовского процесса

Оценка структуры векторной регуляризации также может быть получена с байесовской точки зрения с использованием методов гауссовского процесса в случае конечномерного Воспроизведение ядра гильбертова пространства. Вывод аналогичен скалярнозначному случаю Байесовская интерпретация регуляризации. Вектор-функция , состоящий из выходы , предполагается, что он следует гауссовскому процессу:

куда теперь вектор средних функций для выходов и положительно определенная матричнозначная функция с элементом соответствует ковариации между выходами и .

Для набора входов , априорное распределение по вектору дан кем-то , куда является вектором, который объединяет средние векторы, связанные с выходами и представляет собой блочно-разделенную матрицу. Распределение выходов принято гауссовым:

куда диагональная матрица с элементами указание шума для каждого выхода. Используя эту форму для вероятности, прогнозирующее распределение для нового вектора является:

куда это обучающие данные, а набор гиперпараметров для и .

Уравнения для и затем можно получить:

куда есть записи за и . Обратите внимание, что предсказатель идентичен предиктору, полученному в структуре регуляризации. Для негауссовских вероятностей необходимы различные методы, такие как аппроксимация Лапласа и вариационные методы, чтобы аппроксимировать оценки.

Примеры ядер

Отделяемый

Простой, но широко применимый класс ядер с несколькими выходами можно разделить на продукт ядра во входном пространстве и ядра, представляющего корреляции между выходами:[8]

: скалярное ядро ​​на
: скалярное ядро ​​на

В матричной форме: куда это симметричная и положительно полуопределенная матрица. Обратите внимание, установка к единичной матрице обрабатывает выходные данные как не связанные и эквивалентно отдельному решению задач скалярного вывода.

Для более общей формы добавление нескольких из этих ядер дает сумма разделяемых ядер (Ядра SoS).

Из литературы по регуляризации[8][10][12][13][14]

Получено из регуляризатора

Один из способов получения состоит в том, чтобы указать регуляризатор что ограничивает сложность желаемым образом, а затем получить соответствующее ядро. Для некоторых регуляризаторов это ядро ​​окажется разделимым.

Регуляризатор смешанного действия

куда:

куда матрица со всеми элементами, равными 1.

Этот регуляризатор представляет собой комбинацию ограничения сложности каждого компонента оценки () и заставляя каждый компонент оценщика быть близким к среднему значению всех компонентов. Параметр рассматривает все компоненты как независимые и аналогично решению скалярных задач по отдельности. Параметр предполагает, что все компоненты объясняются одной и той же функцией.

Кластерный регуляризатор

куда:

  • это индексный набор компонентов, принадлежащих кластеру
  • мощность кластера
  • если и оба принадлежат кластеру  ( иначе

куда

Этот регуляризатор делит компоненты на кластеры и заставляет компоненты в каждом кластере быть похожими.

Регуляризатор графа

куда матрица весов, кодирующая сходства между компонентами

куда ,  

Примечание, график лапласианин. Смотрите также: ядро графа.

Узнал из данных

Несколько подходов к обучению из данных были предложены.[8] К ним относятся: выполнение предварительного шага вывода для оценки из данных обучения,[9] предложение учиться и вместе на основе кластерного регуляризатора,[15] и подходы, основанные на разреженности, которые предполагают, что необходимы лишь некоторые из функций.[16][17]

Из байесовской литературы

Линейная модель корегионализации (LMC)

В LMC выходы выражаются как линейные комбинации независимых случайных функций, так что результирующая функция ковариации (по всем входам и выходам) является допустимой положительной полуопределенной функцией. Предполагая выходы с , каждый выражается как:

куда - скалярные коэффициенты, а независимые функции имеют нулевое среднее значение и ковариацию если и 0 в противном случае. Перекрестная ковариация между любыми двумя функциями и тогда можно записать как:

где функции , с и имеют нулевое среднее значение и ковариацию если и . Но дан кем-то . Таким образом, ядро теперь можно выразить как

где каждый известна как матрица корегионализации. Следовательно, ядро, полученное из LMC, является суммой произведений двух ковариационных функций, одна из которых моделирует зависимость между выходами, независимо от входного вектора. (матрица корегионализации ), и тот, который моделирует входную зависимость, независимо от (ковариационная функция ).

Модель внутренней регионализации (ICM)

ICM - это упрощенная версия LMC с . ICM предполагает, что элементы матрицы корегионализации можно записать как , для некоторых подходящих коэффициентов . С помощью этой формы для :

куда

В этом случае коэффициенты

и матрица ядра для нескольких выходов становится . ICM гораздо более ограничен, чем LMC, поскольку предполагает, что каждая базовая ковариация в равной степени способствует построению автоковариаций и кросс-ковариаций для выходов. Однако вычисления, необходимые для вывода, значительно упрощаются.

Полупараметрическая модель латентного фактора (SLFM)

Другой упрощенный вариант LMC - это модель полупараметрического латентного фактора (SLFM), которая соответствует настройке (вместо как в ICM). Таким образом, каждая скрытая функция имеет свою ковариацию.

Неразборный

Несмотря на простоту, структура разделяемых ядер может быть слишком ограничивающей для некоторых проблем.

Известные примеры неразделимых ядер в литература по регуляризации включают:

  • Матричнозначные экспоненциально квадратичные (EQ) ядра, предназначенные для оценки расхождение -бесплатно или завиток -свободные векторные поля (или их выпуклая комбинация)[8][18]
  • Ядра определены трансформации[8][19]

в Байесовская перспектива, LMC создает разделяемое ядро, потому что выходные функции вычисляются в точке зависят только от значений скрытых функций при . Нетривиальный способ смешать скрытые функции - это свертка базового процесса с помощью сглаживающего ядра. Если базовый процесс является гауссовским, свернутый процесс также является гауссовым. Следовательно, мы можем использовать свертки для построения ковариационных функций.[20] Этот метод производства неразделимых ядер известен как процесс свертки. Свертки процессов были введены для множественных выходов в сообществе машинного обучения как «зависимые гауссовские процессы».[21]

Выполнение

При реализации алгоритма с использованием любого из указанных выше ядер необходимо учитывать практические соображения по настройке параметров и обеспечению разумного времени вычислений.

Перспектива регуляризации

Подходя с точки зрения регуляризации, настройка параметров аналогична случаю со скалярными значениями и обычно может быть выполнена с помощью перекрестная проверка. Решение требуемой линейной системы обычно требует больших затрат памяти и времени. Если ядро ​​отделимо, преобразование координат может преобразовать к блочно-диагональная матрица, что значительно снижает вычислительную нагрузку за счет решения независимых подзадач D (плюс собственное разложение из ). В частности, для функции потерь по методу наименьших квадратов (регуляризация Тихонова) существует решение в замкнутой форме для :[8][14]

Байесовская перспектива

Существует множество работ, связанных с оценкой параметров гауссовских процессов. Некоторые методы, такие как максимизация предельного правдоподобия (также известная как аппроксимация свидетельств, максимальная вероятность типа II, эмпирический байесовский метод) и метод наименьших квадратов, дают точечные оценки вектора параметров. . Есть также работы, использующие полный байесовский вывод путем присвоения априорных значений и вычисление апостериорного распределения с помощью процедуры выборки. Для негауссовских правдоподобий не существует решения в закрытой форме для апостериорного распределения или для маргинального правдоподобия. Однако предельное правдоподобие может быть аппроксимировано в рамках схем аппроксимации Лапласа, вариационного Байеса или распространения математических ожиданий (EP) для классификации множественных выходных данных и использоваться для нахождения оценок гиперпараметров.

Основная вычислительная проблема с байесовской точки зрения та же, что и в теории регуляризации обращения матрицы

Этот шаг необходим для вычисления предельного правдоподобия и прогнозного распределения. Для большинства предлагаемых методов аппроксимации для сокращения вычислений получаемая вычислительная эффективность не зависит от конкретного используемого метода (например, LMC, свертка процесса), используемого для вычисления ковариационной матрицы с несколькими выходами. Краткое изложение различных методов уменьшения вычислительной сложности в гауссовских процессах с несколькими выходами представлено в.[8]

Рекомендации

  1. ^ С.Дж. Пан и К. Ян, "Обзор трансферного обучения", IEEE Transactions on Knowledge and Data Engineering, 22, 2010 г.
  2. ^ Рич Каруана, «Многозадачное обучение», Машинное обучение, 41–76, 1997 г.
  3. ^ Дж. Вер Хоф и Р. Барри "Построение и подгонка моделей для кокригинга и многомерного пространственного прогнозирования, "Журнал статистического планирования и вывода", 69: 275–294, 1998 г.
  4. ^ П. Гувертс, "Геостатистика для оценки природных ресурсов", Oxford University Press, США, 1997 г.
  5. ^ Н. Кресси "Статистика пространственных данных", John Wiley & Sons Inc. (пересмотренное издание), США, 1993 г.
  6. ^ C.A. Микчелли и М. Понтиль "Об обучении векторнозначных функций, "Нейронные вычисления", 17: 177–204, 2005.
  7. ^ К. Кармели и др. "Векторозначные воспроизводящие ядерные гильбертовы пространства интегрируемых функций и теорема Мерсера, "Анал. Прикладн. (Сингапур.)", 4
  8. ^ а б c d е ж грамм час я j k Маурисио А. Альварес, Лоренцо Росаско и Нил Д. Лоуренс, «Ядра для векторно-значных функций: обзор», «Основы и тенденции в машинном обучении» 4, вып. 3 (2012): 195–266. DOI: 10.1561 / 2200000036 arXiv: 1106.6251
  9. ^ а б Ганс Вакернагель. Многомерная геостатистика. Springer-Verlag Heidelberg, Нью-Йорк, 2003 г.
  10. ^ а б C.A. Микчелли и М. Понтиль. Об обучении векторнозначных функций. Нейронные вычисления, 17: 177–204, 2005.
  11. ^ К.Кармели, Э. ДеВито и А. Тойго. Векторозначное воспроизводящее ядро ​​Гильбертовы пространства интегрируемых функций и теорема Мерсера. Анальный. Appl. (Сингапур.), 4 (4): 377–408, 2006.
  12. ^ C. A. Micchelli и M. Pontil. Ядра для многозадачного обучения. В достижениях в системах обработки нейронной информации (NIPS). MIT Press, 2004.
  13. ^ Т.Евгениу, К.А.Микчелли, М.Понтил. Изучение нескольких задач с помощью методов ядра. Журнал исследований в области машинного обучения, 6: 615–637, 2005.
  14. ^ а б Л. Бальдассарре, Л. Росаско, А. Барла и А. Верри. Обучение с несколькими выходами через спектральную фильтрацию. Технический отчет, Массачусетский технологический институт, 2011. MIT-CSAIL-TR-2011-004, CBCL-296.
  15. ^ Лоран Жакоб, Фрэнсис Бах и Жан-Филипп Вер. Кластерное многозадачное обучение: выпуклая формулировка. В NIPS 21, страницы 745–752, 2008 г.
  16. ^ Андреас Аргириу, Теодорос Евгениу и Массимилиано Понтиль. Выпуклое многозадачное обучение. Машинное обучение, 73 (3): 243–272, 2008.
  17. ^ Андреас Аргириу, Андреас Маурер и Массимилиано Понтиль. Алгоритм передачи обучения в неоднородной среде. В ECML / PKDD (1), страницы 71–85, 2008 г.
  18. ^ И. Масидо и Р. Кастро. Изучение бездивергентных и бездиверсионных векторных полей с матричными ядрами. Технический отчет, Instituto Nacional de Matematica Pura e Aplicada, 2008 г.
  19. ^ А. Капоннетто, К.А. Микчелли, М. Понтиль и Ю. Инь. Универсальные ядра для многозадачного обучения. Журнал исследований в области машинного обучения, 9: 1615–1646, 2008 г.
  20. ^ Д. Хигдон, "Пространственное и пространственно-временное моделирование с использованием сверток процессов, Количественные методы решения текущих экологических проблем", 37–56, 2002
  21. ^ П. Бойл и М. Фрин "Зависимые гауссовские процессы, Достижения в системах обработки нейронной информации, 17: 217–224, MIT Press, 2005