Матричная регуляризация - Matrix regularization
В области теория статистического обучения, матричная регуляризация обобщает понятия векторной регуляризации на случаи, когда изучаемым объектом является матрица. Целью регуляризации является обеспечение условий, например разреженности или гладкости, которые могут обеспечить стабильные функции прогнозирования. Например, в более распространенной векторной структуре Тихоновская регуляризация оптимизирует более
найти вектор это стабильное решение проблемы регрессии. Когда система описывается матрицей, а не вектором, эту задачу можно записать как
где векторная норма, обеспечивающая штраф за регуляризацию на был расширен до матричной нормы на .
Матричная регуляризация находит применение в завершение матрицы, многомерная регрессия, и многозадачное обучение. Идеи выбора признаков и групп также могут быть распространены на матрицы, и их можно обобщить на непараметрический случай множественное обучение ядра.
Основное определение
Рассмотрим матрицу учиться на примерах, , куда идет от к , и идет от к . Пусть каждая входная матрица быть , и разреши иметь размер . Общая модель вывода можно представить как
где внутренний продукт - это Внутренний продукт Фробениуса. Для различных приложений матрицы будут иметь разные формы,[1] но для каждого из них задача оптимизации вывести можно записать как
куда определяет эмпирическую ошибку для данного , и штраф за регуляризацию матрицы. Функция обычно выбирается выпуклым и часто выбирается для обеспечения разреженности (используя -norms) и / или гладкость (используя -нормы). Ну наконец то, находится в пространстве матриц с внутренним произведением Фробениуса .
Общие приложения
Завершение матрицы
В проблеме заполнение матрицы, матрица принимает форму
куда и каноническая основа в и . В этом случае роль внутреннего продукта Фробениуса заключается в выборе отдельных элементов. из матрицы . Таким образом, на выходе это выборка элементов из матрицы .
Проблема реконструкции из небольшого набора выборочных записей возможно только при определенных ограничениях на матрицу, и эти ограничения могут быть реализованы с помощью функции регуляризации. Например, можно предположить, что имеет низкий ранг, и в этом случае штраф за регуляризацию может принимать форму ядерной нормы.[2]
куда , с из к , - сингулярные значения .
Многомерная регрессия
Модели, используемые в многомерная регрессия параметризованы матрицей коэффициентов. В приведенном выше внутреннем произведении Фробениуса каждая матрица является
таким образом, что выход внутреннего продукта является скалярным произведением одной строки входных данных с одним столбцом матрицы коэффициентов. Привычный вид таких моделей -
Многие из векторных норм, используемых в регрессии с одной переменной, можно распространить на многомерный случай. Одним из примеров является квадрат нормы Фробениуса, который можно рассматривать как -норма, действующая либо по элементам, либо по сингулярным числам матрицы:
В многомерном случае эффект регуляризации с нормой Фробениуса такой же, как и в векторном случае; очень сложные модели будут иметь более высокие нормы и, следовательно, будут подвергаться большему наказанию.
Многозадачное обучение
Настройка для многозадачного обучения почти такая же, как для многомерной регрессии. Основное отличие состоит в том, что входные переменные также индексируются по задачам (столбцы ). Тогда представление с внутренним произведением Фробениуса будет
Роль матричной регуляризации в этой настройке может быть такой же, как и в многомерной регрессии, но матричные нормы также могут использоваться для объединения проблем обучения между задачами. В частности, обратите внимание, что для задачи оптимизации
решения, соответствующие каждому столбцу развязаны. То есть одно и то же решение можно найти, решив совместную задачу или решив изолированную задачу регрессии для каждого столбца. Проблемы можно объединить, добавив дополнительный штраф за регулирование ковариантности решений.
куда моделирует взаимосвязь между задачами. Эта схема может использоваться как для обеспечения схожести решений для разных задач, так и для изучения конкретной структуры схожести задач путем чередования оптимизаций и .[3] Когда известно, что взаимосвязь между задачами лежит на графике, Матрица лапласа графа можно использовать для объединения задач обучения.
Спектральная регуляризация
Регуляризация с помощью спектральной фильтрации был использован для поиска стабильных решений таких проблем, как те, что обсуждались выше, путем обращения к некорректным обращениям матриц (см., например, Функция фильтра для регуляризации Тихонова ). Во многих случаях функция регуляризации воздействует на вход (или ядро), чтобы гарантировать ограниченное обратное, устраняя небольшие сингулярные значения, но также может быть полезно иметь спектральные нормы, которые действуют на матрицу, которую необходимо изучить.
Есть ряд матричных норм, которые действуют на сингулярные значения матрицы. Часто используемые примеры включают P-нормы Шаттена, с п = 1 или 2. Например, матричная регуляризация с 1-нормой Шаттена, также называемая ядерной нормой, может использоваться для обеспечения разреженности спектра матрицы. Это использовалось в контексте завершения матрицы, когда считается, что рассматриваемая матрица имеет ограниченный ранг.[2] В этом случае проблема оптимизации становится:
- при условии
Спектральная регуляризация также используется для обеспечения матрицы коэффициентов пониженного ранга в многомерной регрессии.[4] В этой настройке матрицу коэффициентов пониженного ранга можно найти, оставив только верхний сингулярные значения, но это можно расширить, чтобы сохранить любой сокращенный набор сингулярных значений и векторов.
Структурированная разреженность
Разреженная оптимизация стала предметом большого исследовательского интереса как способ поиска решений, которые зависят от небольшого числа переменных (см., Например, Метод лассо ). В принципе, разреженность на входе может быть обеспечена путем наложения штрафов на запись -норма матрицы, но -норма не выпуклая. На практике это может быть реализовано выпуклой релаксацией к -норма. Хотя начальная регуляризация с -norm найдет решения с небольшим количеством ненулевых элементов, применяя -норма к различным группам переменных может усилить структуру разреженности решений.[5]
Самый простой пример структурированной разреженности использует норма с и :
Например, norm используется в многозадачном обучении для группировки функций по задачам, так что все элементы в заданной строке матрицы коэффициентов могут быть обнулены как группа.[6] Эффект группировки достигается за счет приема -норма каждой строки, а затем считать, что общий штраф равен сумме этих норм по строкам. Эта регуляризация приводит к тому, что строки будут содержать все нули или быть плотными. Тот же тип регуляризации можно использовать для обеспечения разреженности по столбцам, взяв -нормы каждого столбца.
В более общем плане норма может применяться к произвольным группам переменных:
где индекс находится по группам переменных, и указывает мощность группы .
Алгоритмы для решения этих проблем разреженности групп расширяют более известные методы лассо и группового лассо, например, позволяя перекрывающиеся группы, и были реализованы через подходящее преследование:[7] и проксимальные градиентные методы.[8] Записав проксимальный градиент по отношению к данному коэффициенту, , видно, что эта норма обеспечивает групповой мягкий порог[1]
куда индикаторная функция для групповых норм .
Таким образом, используя Согласно нормам несложно обеспечить структуру разреженной матрицы по строкам, по столбцам или произвольными блоками. Например, применяя групповые нормы для блоков в многофакторной или многозадачной регрессии, можно найти группы входных и выходных переменных, в которых определены подмножества выходных переменных (столбцы в матрице ) будет зависеть от того же разреженного набора входных переменных.
Выбор нескольких ядер
Идеи структурированной разреженности и выбор функции распространяется на непараметрический случай изучение нескольких ядер.[9] Это может быть полезно, когда имеется несколько типов входных данных (например, цвет и текстура) с разными подходящими ядрами для каждого или когда соответствующее ядро неизвестно. Если есть два ядра, например, с картами функций и лежат в соответствующих воспроизводящие ядерные гильбертовы пространства , затем большее пространство, , можно создать как сумму двух пробелов:
предполагая линейную независимость в и . В этом случае -норма - это снова сумма норм:
Таким образом, выбирая функцию регуляризации матрицы в качестве нормы этого типа, можно найти решение, которое является разреженным с точки зрения используемых ядер, но плотным по коэффициенту каждого используемого ядра. Множественное обучение ядра также может использоваться как форма нелинейного выбора переменных или как метод агрегирования моделей (например, путем взятия суммы квадратов норм и ослабления ограничений разреженности). Например, каждое ядро можно рассматривать как гауссово ядро с разной шириной.
Смотрите также
Рекомендации
- ^ а б Росаско, Лоренцо; Поджио, Томазо (Декабрь 2014 г.). «Тур по регуляризации машинного обучения». Конспект лекций MIT-9.520 (Рукопись).
- ^ а б Candès, Эммануэль Дж.; Рехт, Бенджамин (2009). «Точное завершение матрицы с помощью выпуклой оптимизации». Основы вычислительной математики. 9 (6): 717–772. Дои:10.1007 / s10208-009-9045-5.
- ^ Чжан; Юнг (2012). «Выпуклая формулировка взаимосвязей между задачами обучения в многозадачном обучении». Материалы Двадцать шестой конференции по неопределенности в искусственном интеллекте (UAI2010). arXiv:1203.3536. Bibcode:2012arXiv1203.3536Z.
- ^ Изенман, Алан Дж. (1975). «Редукция пониженного ранга для многомерной линейной модели». Журнал многомерного анализа. 5 (2): 248–264. Дои:10.1016 / 0047-259X (75) 90042-1.
- ^ Какаде; Шалев-Шварц; Тевари (2012). «Методы регуляризации для обучения с помощью матриц». Журнал исследований в области машинного обучения. 13: 1865–1890.
- ^ Argyriou, A .; Евгений, Т .; Понтил, М. (2008). «Выпуклое многозадачное изучение функций». Машинное обучение. 73 (3): 243–272. Дои:10.1007 / s10994-007-5040-8.
- ^ Хуанг; Чжан; Метаксас (2011). «Обучение со структурированной разреженностью». Журнал исследований в области машинного обучения. 12: 3371–3412.
- ^ Чен, Си; и другие. (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии». Анналы прикладной статистики. 6 (2): 719–752. Дои:10.1214 / 11-AOAS514.
- ^ Зонненбург; Рэтч; Шафер; Scholkopf (2006). «Крупномасштабное обучение с несколькими ядрами». Журнал исследований в области машинного обучения. 7: 1531–1565.