Регуляризация структурированной разреженности - Structured sparsity regularization

Регуляризация структурированной разреженности это класс методов и область исследований в теория статистического обучения, которые расширяют и обобщают методы обучения регуляризации разреженности.[1] И методы регуляризации разреженности, и структурированной разреженности стремятся использовать предположение, что выходная переменная (т.е. ответ, или зависимая переменная ), который нужно изучить, можно описать уменьшенным числом переменных во входном пространстве (т.е. домен, пространство Особенности или же объясняющие переменные ). Методы регуляризации разреженности сосредоточьтесь на выборе входных переменных, которые лучше всего описывают выход. Методы регуляризации структурированной разреженности обобщать и расширять методы регуляризации разреженности, обеспечивая оптимальный выбор структур, таких как группы или сети входных переменных в .[2][3]

Общей мотивацией для использования методов структурированной разреженности являются интерпретируемость модели, многомерное обучение (где размерность может быть больше, чем количество наблюдений ) и уменьшение вычислительная сложность.[4] Более того, методы структурированной разреженности позволяют включать предварительные предположения о структуре входных переменных, таких как перекрывающиеся группы,[2] неперекрывающиеся группы и ациклические графы.[3] Примеры использования методов структурированной разреженности включают распознавание лиц,[5] магнитно-резонансное изображение (МРТ) обработка,[6] социолингвистический анализ обработки естественного языка,[7] и анализ генетической экспрессии при раке груди.[8]

Определение и связанные понятия

Регуляризация разреженности

Рассмотрим линейное ядро упорядоченный минимизация эмпирического риска проблема с функцией потерь и «норма» как штраф за регуляризацию:

куда , и обозначает "норма", определяемая как количество ненулевых элементов вектора . как говорят редкий, если . Это означает, что на выходе можно описать небольшим набором входных переменных.

В общем, допустим, что словарь с задана так, что целевая функция задачи обучения можно записать как:

,

В норма как количество ненулевых компонент определяется как

, куда мощность множества .

считается редким, если .

Однако при использовании Норма регуляризации благоприятствует разреженным решениям, ее сложно использовать с вычислительной точки зрения и, кроме того, она не является выпуклой. Вычислительно более выполнимая норма, которая способствует более разреженным решениям, - это норма; Было показано, что это все еще способствует более разреженным решениям и дополнительно является выпуклым.[4]

Регуляризация структурированной разреженности

Структурированная регуляризация разреженности расширяет и обобщает проблему выбора переменных, которая характеризует регуляризацию разреженности.[2][3] Рассмотрим вышеизложенное упорядоченный минимизация эмпирического риска проблема с общим ядром и связанной картой функций с .

Срок регуляризации наказывает каждого компонент независимо, что означает, что алгоритм будет подавлять входные переменные независимо друг от друга.

В некоторых ситуациях мы можем захотеть ввести больше структуры в процесс регуляризации, чтобы, например, входные переменные подавлялись в соответствии с предопределенными группами. Методы регуляризации структурированной разреженности позволяют ввести такую ​​структуру, добавив структуру к нормам, определяющим срок регуляризации.

Структуры и нормы

Неперекрывающиеся группы: групповое лассо

Случай неперекрывающихся групп - самый простой пример структурированной разреженности. В нем априори разбиение вектора коэффициентов в предполагается, что группы не перекрываются. Позволять вектор коэффициентов в группе , мы можем определить член регуляризации и его групповую норму как

,

куда это группа норма , это группа , и это j-й компонент группы .

Указанная норма также именуется группа лассо.[2] Этот регуляризатор приведет к нулю целые группы коэффициентов, а не отдельные коэффициенты. Поскольку группы не перекрываются, набор ненулевых коэффициентов может быть получен как объединение групп, которые не были установлены на ноль, и наоборот для набора нулевых коэффициентов.

Перекрывающиеся группы

Перекрывающиеся группы - это случай разреженности структуры, когда переменная может принадлежать более чем одной группе . Этот случай часто представляет интерес, поскольку он может представлять более общий класс отношений между переменными, чем неперекрывающиеся группы, такие как древовидные структуры или другие типы графиков.[3][8]

Существует два типа перекрывающихся подходов к регуляризации разреженности группы, которые используются для моделирования различных типов отношений входных переменных:

Пересечение дополнений: групповое лассо

В пересечение дополнений подход используется в случаях, когда мы хотим выбрать только те входные переменные, которые имеют положительные коэффициенты во всех группах, к которым они принадлежат. Снова рассмотрим группа лассо для упорядоченный минимизация эмпирического риска проблема:

,

куда это группа норма, это группа , и это j-й компонент группы .

Как и в случае неперекрывающихся групп, группа лассо регуляризатор потенциально обнулит целые группы коэффициентов. Выбранные переменные - это переменные с коэффициентами . Однако, поскольку в этом случае группы могут перекрываться, мы берем пересечение дополнений тех групп, которые не установлены в ноль.

Этот пересечение дополнений Критерии выбора подразумевают выбор модели, позволяющий использовать некоторые коэффициенты в пределах определенной группы. быть установленным на ноль, в то время как другие в той же группе может оставаться положительным. Другими словами, коэффициенты внутри группы могут отличаться в зависимости от нескольких групповых принадлежностей, которые может иметь каждая переменная в группе.

Объединение групп: латентное групповое лассо

Другой подход - рассмотреть объединение групп для выбора переменных. Этот подход отражает ситуацию моделирования, когда переменные могут быть выбраны, если они принадлежат хотя бы к одной группе с положительными коэффициентами. Эта перспектива моделирования подразумевает, что мы хотим сохранить структуру группы.

Формулировка подхода объединения групп также упоминается как латентная группа лассо, и требует изменить группу рассмотренной выше нормы и введем следующий регуляризатор [3]

куда , - вектор коэффициентов группы g, а вектор с коэффициентами для всех переменных в группе , и во всех остальных, т.е. если в группе и иначе.

Этот регуляризатор можно интерпретировать как эффективно реплицирующие переменные, принадлежащие более чем одной группе, тем самым сохраняя структуру группы. По замыслу подхода объединения групп, требующего создает вектор весов w, который эффективно суммирует веса всех переменных по всем группам, к которым они принадлежат.

Проблемы с регуляризацией группового лассо и альтернативные подходы

Целевая функция с использованием группового лассо состоит из функции ошибок, которая обычно должна быть выпуклой, но не обязательно сильно выпуклой, и группы срок регуляризации. Проблема с этой целевой функцией заключается в том, что она выпуклая, но не обязательно сильно выпуклая, и, следовательно, обычно не приводит к однозначным решениям.[9]

Пример способа исправить это - ввести квадрат норма весового вектора как дополнительный член регуляризации при сохранении член регуляризации из подхода группового лассо.[9] Если коэффициент при квадрате срок нормы больше чем , то потому что квадрат член нормы является сильно выпуклым, результирующая целевая функция также будет сильно выпуклой.[9] При условии, что коэффициент достаточно мал, но все же положителен, весовой вектор, минимизирующий результирующую целевую функцию, обычно очень близок к весовому вектору, который минимизирует целевую функцию, которая будет результатом удаления группы член регуляризации полностью от исходной целевой функции; последний сценарий соответствует подходу группового лассо.[9] Таким образом, этот подход позволяет упростить оптимизацию при сохранении разреженности.[9]

Нормы, основанные на структуре входных переменных

Видеть: Функция субмодульного набора

Помимо норм, рассмотренных выше, другие нормы, используемые в методах структурированной разреженности, включают иерархические нормы и нормы, определенные в сетках. Эти нормы возникают из субмодульных функций и позволяют включать предварительные предположения о структуре входных переменных. В контексте иерархических норм эту структуру можно представить как ориентированный ациклический граф над переменными, тогда как в контексте норм, основанных на сетке, структура может быть представлена ​​в виде сетки.[10][11][12][13][14][15]

Иерархические нормы

Видеть: Обучение без учителя

Неконтролируемые методы обучения часто используются для изучения параметров скрытые переменные модели. Модели со скрытыми переменными - это статистические модели, в которых в дополнение к наблюдаемым переменным также существует набор скрытых переменных, которые не наблюдаются. Часто в таких моделях предполагаются «иерархии» между переменными системы; эту систему иерархий можно представить с помощью ориентированных ациклических графов.

Иерархии скрытых переменных стали естественной структурой в нескольких приложениях, особенно для моделирования текстовых документов.[11] Иерархические модели, использующие байесовские непараметрические методы, использовались для изучения тематические модели,[10] которые представляют собой статистические модели для обнаружения абстрактных «тем», встречающихся в коллекции документов. Иерархии также рассматривались в контексте методов ядра.[13] Иерархические нормы были применены к биоинформатике,[12] компьютерное зрение и тематические модели.[14]

Нормы, определенные на сетках

Если структура, предполагаемая над переменными, имеет форму одномерной, двухмерной или трехмерной сетки, то субмодульные функции, основанные на перекрывающихся группах, могут рассматриваться как нормы, приводящие к стабильным наборам, равным прямоугольной или выпуклой форме.[13] Такие методы нашли применение в компьютерном зрении.[15]

Алгоритмы вычислений

Проблема выбора лучшего подмножества

Проблема выбора наилучшего подмножества входных переменных может быть естественно сформулирована в рамках системы штрафов как:[4]

Где обозначает "норма", определяемая как количество ненулевых элементов вектора .

Хотя такая формулировка имеет смысл с точки зрения моделирования, она невыполнима с вычислительной точки зрения, поскольку эквивалентна исчерпывающему поиску, оценивающему все возможные подмножества переменных.[4]

Два основных подхода к решению задачи оптимизации: 1) жадные методы, такие как пошаговая регрессия в статистике, или подходящее преследование в обработка сигналов; и 2) подходы к формулировке выпуклой релаксации и проксимальный градиент методы оптимизации.

Выпуклое расслабление

Естественным приближением к проблеме выбора наилучшего подмножества является регуляризация нормы:[4]

Такая схема называется базовое преследование или Лассо, который заменяет «норма» для выпуклых недифференцируемых норма.

Проксимальные градиентные методы

Проксимальные градиентные методы, также называемые разделением вперед-назад, являются методами оптимизации, полезными для минимизации функций с выпуклый и дифференцируемый компонент и выпуклый потенциально недифференцируемый компонент.

Таким образом, методы проксимального градиента полезны для решения задач регуляризации разреженности и структурированной разреженности.[9] следующего вида:

Где выпуклый и дифференцируемый функция потерь словно квадратичная потеря, и является выпуклым потенциально недифференцируемым регуляризатором, таким как норма.

Связь с другими областями машинного обучения

Подключение к обучению с несколькими ядрами

Регуляризация структурированной разреженности может применяться в контексте множественное обучение ядра.[16] Обучение с несколькими ядрами относится к набору методов машинного обучения, которые используют предопределенный набор ядер и изучают оптимальную линейную или нелинейную комбинацию ядер как часть алгоритма.

В упомянутых выше алгоритмах учитывалось сразу все пространство и разбивалось на группы, т.е. подпространства. Дополнительная точка зрения состоит в том, чтобы рассмотреть случай, когда отдельные пространства объединяются для получения нового. Полезно обсудить эту идею, рассматривая конечные словари. Конечные словари с линейно независимыми элементами - эти элементы также известны как атомы - относятся к конечным наборам линейно независимых базисных функций, линейные комбинации которых определяют пространства гипотез. Конечные словари могут использоваться для определения конкретных ядер, как будет показано ниже.[16] Предположим для этого примера, что вместо одного словаря рассматривается несколько конечных словарей.

Для простоты случай, когда есть только два словаря и куда и являются целыми числами, будут считаться. Атомы в а также атомы в считаются линейно независимыми. Позволять быть объединением двух словарей. Рассмотрим линейное пространство функций заданные линейными комбинациями вида

для некоторых векторов коэффициентов , куда . Предположим, что атомы в чтобы по-прежнему быть линейно независимым, или, что то же самое, что отображение один к одному. Функции в пространстве можно рассматривать как сумму двух компонентов, одна в пространстве линейные комбинации атомов в и один в линейные комбинации атомов в .

Один из вариантов нормы на этом пространстве . Обратите внимание, что теперь мы можем просматривать как функциональное пространство, в котором , являются подпространствами. Ввиду предположения о линейной независимости можно отождествить с и с соответственно. Указанная выше норма может рассматриваться как групповая норма в связанные с подпространствами , , обеспечивая связь с регуляризацией структурированной разреженности.

Здесь, , и можно рассматривать как воспроизводящие гильбертовы пространства ядра с соответствующими отображениями характеристик , данный , , данный , и , заданный конкатенацией , соответственно.

В подходе структурированной регуляризации разреженности к этому сценарию соответствующие группы переменных, которые рассматривают нормы группы, соответствуют подпространствам и . Этот подход способствует установке групп коэффициентов, соответствующих этим подпространствам, равными нулю, а не только отдельным коэффициентам, способствуя разреженному обучению с несколькими ядрами.

Приведенные выше рассуждения напрямую обобщаются на любое конечное число словарей или карт функций. Его можно расширить до карт признаков, вызывающих бесконечномерную гипотезу.

пробелы.[16]

Когда полезно изучение разреженного множественного ядра

Рассмотрение разреженного множественного обучения ядра полезно в нескольких ситуациях, включая следующие:

  • Объединение данных: когда каждое ядро ​​соответствует разному типу модальности / функции.
  • Нелинейный выбор переменных: рассмотрим ядра зависит только от одного измерения ввода.

Обычно разреженное изучение нескольких ядер особенно полезно, когда ядер много, а выбор модели и интерпретируемость важны.[16]

Дополнительное использование и приложения

Методы регуляризации структурированной разреженности использовались в ряде случаев, когда желательно ввести априори структура входных переменных для процесса регуляризации. Вот некоторые из таких приложений:

  • Компрессионное зондирование в магнитно-резонансная томография (МРТ), реконструкция МР-изображений из небольшого количества измерений, потенциально обеспечивающая значительное сокращение времени МР-сканирования[6]
  • Крепкий распознавание лица при наличии перекоса, окклюзии и изменения освещенности[5]
  • Раскрытие социолингвистический ассоциации между лексическими частотами, используемыми авторами Twitter, и социально-демографическими переменными их географических сообществ[7]
  • Анализ выбора генов данных рака груди с использованием априорных значений перекрывающихся групп, например, биологически значимых наборов генов[8]

Смотрите также

Рекомендации

  1. ^ Росаско, Лоренцо; Поджио, Томассо (декабрь 2014 г.). «Тур по регуляризации машинного обучения». Конспект лекций MIT-9.520.
  2. ^ а б c d Юань, М .; Лин, Ю. (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными». J. R. Stat. Soc. B. 68 (1): 49–67. CiteSeerX  10.1.1.79.2062. Дои:10.1111 / j.1467-9868.2005.00532.x.
  3. ^ а б c d е Обозинский, Г .; Laurent, J .; Верт, Ж.-П. (2011). «Групповое лассо с перекрытиями: латентный подход группового лассо». arXiv:1110.0413 [stat.ML ].
  4. ^ а б c d е Л. Росаско. Лекция 10 конспекта лекций для 9.520: Статистическая теория обучения и приложения. Массачусетский технологический институт, осень 2014 г. Доступно по адресу https://www.mit.edu/~9.520/fall14/slides/class18/class18_sparsity.pdf
  5. ^ а б Цзя, Куй; и другие. (2012). «Надежное и практичное распознавание лиц с помощью структурированной разреженности». Цитировать журнал требует | журнал = (помощь)
  6. ^ а б Чен, Чен; и другие. (2012). "Компрессионная МРТ с разрежением вейвлет-дерева". Материалы 26-й ежегодной конференции по системам обработки нейронной информации. Curran Associates. С. 1115–1123.
  7. ^ а б Эйзенштейн, Якоб; и другие. (2011). «Обнаружение социолингвистических ассоциаций со структурированной разреженностью». Материалы 49-го Ежегодного собрания Ассоциации компьютерной лингвистики.
  8. ^ а б c Джейкоб, Лоран; и другие. (2009). «Групповое лассо с перекрытием и графическое лассо». Материалы 26-й Международной конференции по машинному обучению.
  9. ^ а б c d е ж Вилла, S .; Rosasco, L .; Mosci, S .; Верри, А. (2012). «Проксимальные методы латентного группового штрафа лассо». arXiv:1209.0368 [math.OC ].
  10. ^ а б Блей Д., Нг А. и Джордан М. Скрытое распределение дирихле. J. Mach. Учиться. Res., 3: 993–1022, 2003.
  11. ^ а б Бенжио Ю. "Изучение глубокой архитектуры для ИИ". Основы и тенденции в машинном обучении, 2 (1), 2009.
  12. ^ а б С. Ким и Э. Син. Групповое лассо с древовидным управлением для многозадачной регрессии со структурированной разреженностью. В Proc. ICML, 2010.
  13. ^ а б c Дженаттон, Родольф; Аудибер, Жан-Ив; Бах, Фрэнсис (2011). «Структурированный выбор переменных с нормами, вызывающими разреженность». Журнал исследований в области машинного обучения. 12 (2011): 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.
  14. ^ а б Р. Дженаттон, Дж. Майрал, Г. Обозинский и Ф. Бах. Проксимальные методы изучения разреженных иерархических словарей. В Proc. ICML, 2010.
  15. ^ а б Р. Дженаттон, Г. Обозинский, Ф. Бах. Структурированный разреженный анализ главных компонент. В Proc. АИСТАТЫ, 2009.
  16. ^ а б c d Росаско, Лоренцо; Поджио, Томазо (осень 2015 г.). «Примечания к курсу MIT 9.520, осень 2015 г., глава 6». Цитировать журнал требует | журнал = (помощь)