Методы проксимального градиента для обучения - Proximal gradient methods for learning

Проксимальный градиент (прямое и обратное разделение) методы обучения это область исследований в оптимизация и теория статистического обучения который изучает алгоритмы для общего класса выпуклый регуляризация проблемы, при которых штраф за регуляризацию не может быть дифференцируемый. Одним из таких примеров является ${ displaystyle ell _ {1}}$ регуляризация (также известная как лассо) формы

{ displaystyle min _ {w in mathbb {R} ^ {d}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle w, x_ {i} rangle) ^ {2} + lambda | w | _ {1}, quad { text {где}} x_ {i} in mathbb {R} ^ {d} { text {and}} y_ {i} in mathbb {R}.}

Методы проксимального градиента предлагают общую основу для решения задач регуляризации из теории статистического обучения со штрафами, адаптированными к конкретному приложению проблемы.^[1]^[2] Такие индивидуальные штрафы могут помочь создать определенную структуру в решениях проблем, например: редкость (в случае лассо ) или же структура группы (в случае групповое лассо ).

Соответствующий фон

Проксимальные градиентные методы применимы в самых разных сценариях решения выпуклая оптимизация проблемы формы

{ Displaystyle мин _ {х in { mathcal {H}}} F (x) + R (x),}

куда ${ displaystyle F}$ является выпуклый и дифференцируемый с Липшицева непрерывная градиент, ${ displaystyle R}$ это выпуклый, полунепрерывный снизу функция, которая, возможно, недифференцируема, и ${ displaystyle { mathcal {H}}}$ какой-то набор, обычно Гильбертово пространство. Обычный критерий ${ displaystyle x}$ сводит к минимуму ${ Displaystyle F (x) + R (x)}$ если и только если ${ Displaystyle набла (F + R) (х) = 0}$ в выпуклом, дифференцируемом параметре теперь заменяется на

{ Displaystyle 0 в partial (F + R) (х),}

куда ${ displaystyle partial varphi}$ обозначает субдифференциальный действительной выпуклой функции ${ displaystyle varphi}$ .

Для выпуклой функции ${ displaystyle varphi: { mathcal {H}} to mathbb {R}}$ важным оператором, который следует учитывать, является его оператор близости ${ displaystyle operatorname {prox} _ { varphi}: { mathcal {H}} to { mathcal {H}}}$ определяется

{ displaystyle operatorname {prox} _ { varphi} (u) = operatorname {arg} min _ {x in { mathcal {H}}} varphi (x) + { frac {1} { 2}} | ux | _ {2} ^ {2},}

которая определена корректно из-за строгой выпуклости ${ displaystyle ell _ {2}}$ норма. Оператор близости можно рассматривать как обобщение проекция.^[1]^[3]^[4]Мы видим, что оператор близости важен, потому что ${ displaystyle x ^ {*}}$ сводит к минимуму проблему ${ Displaystyle мин _ {х in { mathcal {H}}} F (x) + R (x)}$ если и только если

{ displaystyle x ^ {*} = operatorname {prox} _ { gamma R} left (x ^ {*} - gamma nabla F (x ^ {*}) right),}

куда

{ displaystyle gamma> 0}

- любое положительное действительное число.^[1]

Разложение Моро

Одним из важных методов, связанных с методами проксимального градиента, является Разложение Моро, который разлагает единичный оператор как сумму двух операторов близости.^[1] А именно пусть ${ displaystyle varphi: { mathcal {X}} to mathbb {R}}$ быть полунепрерывный снизу, выпуклая функция в векторном пространстве ${ displaystyle { mathcal {X}}}$ . Мы определяем его Конъюгат фенхеля ${ displaystyle varphi ^ {*}: { mathcal {X}} to mathbb {R}}$ быть функцией

{ displaystyle varphi ^ {*} (u): = sup _ {x in { mathcal {X}}} langle x, u rangle - varphi (x).}

Общий вид разложения Моро утверждает, что для любого ${ displaystyle x in { mathcal {X}}}$ и любой ${ displaystyle gamma> 0}$ который

{ displaystyle x = operatorname {prox} _ { gamma varphi} (x) + gamma operatorname {prox} _ { varphi ^ {*} / gamma} (x / gamma),}

который для ${ displaystyle gamma = 1}$ подразумевает, что ${ displaystyle x = operatorname {prox} _ { varphi} (x) + operatorname {prox} _ { varphi ^ {*}} (x)}$ .^[1]^[3] Разложение Моро можно рассматривать как обобщение обычного ортогонального разложения векторного пространства, аналогичное тому факту, что операторы близости являются обобщениями проекций.^[1]

В определенных ситуациях может быть проще вычислить оператор близости для сопряженного ${ displaystyle varphi ^ {*}}$ вместо функции ${ displaystyle varphi}$ , поэтому можно применить разложение Моро. Это случай для групповое лассо.

Регуляризация лассо

Рассмотрим упорядоченный минимизация эмпирического риска проблема с квадратичными потерями и ${ displaystyle ell _ {1}}$ норма как штраф за регуляризацию:

{ displaystyle min _ {w in mathbb {R} ^ {d}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle w, x_ {i} rangle) ^ {2} + lambda | w | _ {1},}

куда ${ displaystyle x_ {i} in mathbb {R} ^ {d} { text {and}} y_ {i} in mathbb {R}.}$ В ${ displaystyle ell _ {1}}$ Проблема регуляризации иногда упоминается как лассо (оператор наименьшей абсолютной усадки и выбора ).^[5] Такой ${ displaystyle ell _ {1}}$ проблемы регуляризации интересны тем, что они вызывают редкий решения, то есть решения ${ displaystyle w}$ в задаче минимизации относительно мало ненулевых компонент. Лассо можно рассматривать как выпуклую релаксацию невыпуклой задачи

{ displaystyle min _ {w in mathbb {R} ^ {d}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle w, x_ {i} rangle) ^ {2} + lambda | w | _ {0},}

куда ${ Displaystyle | ш | _ {0}}$ обозначает ${ displaystyle ell _ {0}}$ "норма", то есть количество ненулевых элементов вектора ${ displaystyle w}$ . Редкие решения представляют особый интерес в теории обучения для интерпретируемости результатов: разреженное решение может идентифицировать небольшое количество важных факторов.^[5]

Решение для ${ displaystyle ell _ {1}}$ оператор близости

Для простоты ограничимся проблемой, где ${ displaystyle lambda = 1}$ . Решить проблему

{ displaystyle min _ {w in mathbb {R} ^ {d}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle ш, х_ {я} rangle) ^ {2} + | ш | _ {1},}

мы рассматриваем нашу целевую функцию в двух частях: выпуклый дифференцируемый член ${ displaystyle F (w) = { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle w, x_ {i} rangle) ^ {2 }}$ и выпуклая функция ${ Displaystyle R (ш) = | ш | _ {1}}$ . Обратите внимание, что ${ displaystyle R}$ не является строго выпуклым.

Вычислим оператор близости для ${ Displaystyle R (ш)}$ . Сначала найдем альтернативную характеристику оператора близости ${ displaystyle operatorname {prox} _ {R} (x)}$ следующее:

${ displaystyle { begin {align} u = operatorname {prox} _ {R} (x) iff & 0 in partial left (R (u) + { frac {1} {2}} | ux | _ {2} ^ {2} right) iff & 0 in partial R (u) + ux iff & x-u in partial R (u). end {выравнивается} }}$

За ${ Displaystyle R (ш) = | ш | _ {1}}$ легко вычислить ${ displaystyle partial R (w)}$ : the ${ displaystyle i}$ -я запись ${ displaystyle partial R (w)}$ точно

{ displaystyle partial | w_ {i} | = { begin {case} 1, & w_ {i}> 0 - 1, & w_ {i} <0 left [-1,1 right], & w_ {i} = 0. end {case}}}

Используя приведенную выше перехарактеризацию оператора близости, для выбора ${ Displaystyle R (ш) = | ш | _ {1}}$ и ${ displaystyle gamma> 0}$ у нас есть это ${ displaystyle operatorname {prox} _ { gamma R} (x)}$ определяется поэтапно как

{ displaystyle left ( operatorname {prox} _ { gamma R} (x) right) _ {i} = { begin {case} x_ {i} - gamma, & x_ {i}> gamma 0, & | x_ {i} | leq gamma x_ {i} + gamma, & x_ {i} <- gamma, end {case}}}

который известен как мягкий порог оператор ${ displaystyle S _ { gamma} (x) = operatorname {prox} _ { gamma | cdot | _ {1}} (x)}$ .^[1]^[6]

Итерационные схемы с фиксированной точкой

Чтобы окончательно решить задачу лассо, рассмотрим уравнение с фиксированной точкой, показанное ранее:

{ displaystyle x ^ {*} = operatorname {prox} _ { gamma R} left (x ^ {*} - gamma nabla F (x ^ {*}) right).}

Учитывая, что мы явно вычислили форму оператора близости, мы можем определить стандартную итерационную процедуру с фиксированной точкой. А именно исправить некоторые начальные ${ displaystyle w ^ {0} in mathbb {R} ^ {d}}$ , и для ${ Displaystyle к = 1,2, ldots}$ определять

{ displaystyle w ^ {k + 1} = S _ { gamma} left (w ^ {k} - gamma nabla F left (w ^ {k} right) right).}

Обратите внимание на эффективный компромисс между членом эмпирической ошибки ${ Displaystyle F (ш)}$ и штраф за регуляризацию ${ Displaystyle R (ш)}$ . Этот метод с фиксированной точкой разделил влияние двух различных выпуклых функций, которые составляют целевую функцию, на шаг градиентного спуска ( ${ displaystyle w ^ {k} - gamma nabla F left (w ^ {k} right)}$ ) и шаг мягкой пороговой обработки (через ${ displaystyle S _ { gamma}}$ ).

Сходимость этой схемы с неподвижной точкой хорошо изучена в литературе.^[1]^[6] и гарантируется при соответствующем выборе размера шага ${ displaystyle gamma}$ и функция потерь (например, квадрат потерь, взятый здесь). Ускоренные методы были введены Нестеровым в 1983 году, которые улучшают скорость сходимости при определенных предположениях регулярности на ${ displaystyle F}$ .^[7] Такие методы широко изучались в предыдущие годы.^[8]Для более общих задач обучения, где оператор близости не может быть вычислен явно для некоторого члена регуляризации ${ displaystyle R}$ такие схемы с фиксированной точкой по-прежнему могут быть реализованы с использованием аппроксимации как градиента, так и оператора близости.^[4]^[9]

Практические соображения

За последнее десятилетие в выпуклая оптимизация методы, которые повлияли на применение методов проксимального градиента в статистической теории обучения. Здесь мы рассматриваем несколько важных тем, которые могут значительно улучшить практические алгоритмические характеристики этих методов.^[2]^[10]

Адаптивный размер шага

В итерационной схеме с фиксированной точкой

{ displaystyle w ^ {k + 1} = operatorname {prox} _ { gamma R} left (w ^ {k} - gamma nabla F left (w ^ {k} right) right) ,}

можно разрешить переменный размер шага ${ displaystyle gamma _ {k}}$ вместо постоянного ${ displaystyle gamma}$ . В литературе предлагалось множество схем адаптивного размера шага.^[1]^[4]^[11]^[12] Применение этих схем^[2]^[13] предполагают, что они могут предложить значительное улучшение количества итераций, необходимых для сходимости с фиксированной точкой.

Эластичная сетка (регуляризация смешанной нормы)

Упругая сетевая регуляризация предлагает альтернативу чистому ${ displaystyle ell _ {1}}$ регуляризация. Проблема лассо ( ${ displaystyle ell _ {1}}$ ) регуляризация предполагает штраф ${ Displaystyle R (ш) = | ш | _ {1}}$ , которая не является строго выпуклой. Следовательно, решения ${ Displaystyle мин _ {ш} F (ш) + R (ш),}$ куда ${ displaystyle F}$ - некоторая эмпирическая функция потерь, не обязательно уникальная. Этого часто удается избежать, добавляя дополнительный строго выпуклый член, например ${ displaystyle ell _ {2}}$ штраф за регуляризацию нормы. Например, можно рассмотреть задачу

{ displaystyle min _ {w in mathbb {R} ^ {d}} { frac {1} {n}} sum _ {i = 1} ^ {n} (y_ {i} - langle w, x_ {i} rangle) ^ {2} + lambda left ((1- mu) | w | _ {1} + mu | w | _ {2} ^ {2} верно),}

куда ${ displaystyle x_ {i} in mathbb {R} ^ {d} { text {and}} y_ {i} in mathbb {R}.}$ За ${ Displaystyle 0 < му leq 1}$ срок штрафа ${ displaystyle lambda left ((1- mu) | w | _ {1} + mu | w | _ {2} ^ {2} right)}$ теперь строго выпуклая, а значит, задача минимизации теперь имеет единственное решение. Было замечено, что для достаточно малых ${ displaystyle mu> 0}$ , срок дополнительного штрафа ${ Displaystyle му | ш | _ {2} ^ {2}}$ действует как предварительный кондиционер и может существенно улучшить сходимость, не влияя отрицательно на разреженность решений.^[2]^[14]

Использование структуры группы

Методы проксимального градиента обеспечивают общую основу, которая применима к широкому кругу проблем в теория статистического обучения. Определенные проблемы в обучении часто могут включать данные, которые имеют дополнительную известную структуру. априори. В последние несколько лет появились новые разработки, которые включают информацию о структуре группы для предоставления методов, адаптированных к различным приложениям. Здесь мы рассмотрим несколько таких методов.

Групповое лассо

Групповое лассо - это обобщение метод лассо когда объекты сгруппированы в непересекающиеся блоки.^[15] Предположим, что объекты сгруппированы в блоки ${ Displaystyle {w_ {1}, ldots, w_ {G} }}$ . Здесь мы берем в качестве штрафа за регуляризацию

{ Displaystyle R (ш) = сумма _ {г = 1} ^ {G} | ш_ {г} | _ {2},}

что является суммой ${ displaystyle ell _ {2}}$ норма на соответствующие векторы признаков для различных групп. Аналогичный анализ оператора близости, описанный выше, можно использовать для вычисления оператора близости для этого штрафа. Если для штрафа лассо используется оператор близости, который является мягким пороговым значением для каждого отдельного компонента, оператор близости для группового лассо является мягким пороговым значением для каждой группы. Для группы ${ displaystyle w_ {g}}$ у нас есть оператор близости ${ displaystyle lambda gamma left ( sum _ {g = 1} ^ {G} | w_ {g} | _ {2} right)}$ дан кем-то

{ displaystyle { widetilde {S}} _ { lambda gamma} (w_ {g}) = { begin {cases} w_ {g} - lambda gamma { frac {w_ {g}} { | w_ {g} | _ {2}}}, & | w_ {g} | _ {2}> lambda gamma 0, & | w_ {g} | _ {2} leq lambda gamma end {case}}}

куда ${ displaystyle w_ {g}}$ это ${ displaystyle g}$ -я группа.

В отличие от лассо, вывод оператора близости для группового лассо основан на Разложение Моро. Здесь оператор близости сопряженного к групповому лассо штрафа становится проекцией на мяч из двойная норма.^[2]

Другие групповые структуры

В отличие от проблемы группового лассо, где объекты сгруппированы в непересекающиеся блоки, может быть случай, когда сгруппированные объекты перекрываются или имеют вложенную структуру. Такие обобщения группового лассо рассматривались в различных контекстах.^[16]^[17]^[18]^[19] Для перекрывающихся групп один общий подход известен как латентная группа лассо который вводит скрытые переменные для учета перекрытия.^[20]^[21] Структура вложенных групп изучается в предсказание иерархической структуры и с ориентированные ациклические графы.^[18]

Смотрите также

Рекомендации

^ ^а ^б ^c ^d ^е ^ж ^грамм ^час ^я Комбеты, Патрик Л .; Вайс, Валери Р. (2005). «Восстановление сигнала с помощью проксимального разделения вперед-назад». Мультимасштабная модель. Simul. 4 (4): 1168–1200. Дои:10.1137/050626090.
^ ^а ^б ^c ^d ^е Mosci, S .; Rosasco, L .; Matteo, S .; Verri, A .; Вилла, С. (2010). «Решение структурированной регуляризации разреженности с помощью проксимальных методов». Машинное обучение и обнаружение знаний в базах данных. Конспект лекций по информатике. 6322: 418–433. Дои:10.1007/978-3-642-15883-4_27. ISBN 978-3-642-15882-7.
^ ^а ^б Моро, Ж.-Ж. (1962). «Fonctions convxes duales et points Proximaux dans un espace hilbertien». Comptes Rendus de l'Académie des Sciences, Série A. 255: 2897–2899. МИСТЕР 0144188. Zbl 0118.10502.
^ ^а ^б ^c Bauschke, H.H., и Combettes, P.L. (2011). Выпуклый анализ и теория монотонных операторов в гильбертовых пространствах. Springer.
^ ^а ^б Тибширани Р. (1996). «Регрессионное сжатие и отбор с помощью лассо». J. R. Stat. Soc. Сер. B. 1. 58 (1): 267–288.
^ ^а ^б Daubechies, I .; Дефриз, М .; Де Мол, К. (2004). «Итерационный алгоритм пороговой обработки для линейной обратной задачи с ограничением разреженности». Comm. Pure Appl. Математика. 57 (11): 1413–1457. arXiv:математика / 0307152. Дои:10.1002 / cpa.20042.
^ Нестеров, Юрий (1983). «Метод решения задачи выпуклого программирования со скоростью сходимости. ${ Displaystyle О (1 / к ^ {2})}$ ". Советская математика - Доклады. 27 (2): 372–376.
^ Нестеров, Юрий (2004). Вводные лекции по выпуклой оптимизации. Kluwer Academic Publisher.
^ Вилла, S .; Salzo, S .; Baldassarre, L .; Верри, А. (2013). «Ускоренные и неточные алгоритмы вперед-назад». СИАМ Дж. Оптим. 23 (3): 1607–1633. CiteSeerX 10.1.1.416.3633. Дои:10.1137/110844805.
^ Бах, Ф .; Jenatton, R .; Mairal, J .; Обозинский, Гл. (2011). «Оптимизация со штрафами, вызывающими разреженность». Основы и тенденции в машинном обучении. 4 (1): 1–106. arXiv:1108.0775. Bibcode:2011arXiv1108.0775B. Дои:10.1561/2200000015.
^ Лорис, I .; Bertero, M .; De Mol, C .; Zanella, R .; Занни, Л. (2009). "Методы проекции ускоренного градиента для ${ displaystyle ell _ {1}}$ -ограниченное восстановление сигнала по правилам выбора длины ". Прикладной и комп. Гармонический анализ. 27 (2): 247–254. arXiv:0902.4424. Дои:10.1016 / j.acha.2009.02.003.
^ Wright, S.J .; Новак, Р.Д .; Фигейредо, M.A.T. (2009). «Разреженная реконструкция сепарабельным приближением». IEEE Trans. Процесс изображения. 57 (7): 2479–2493. Bibcode:2009ITSP ... 57.2479W. Дои:10.1109 / TSP.2009.2016892.
^ Лорис, Игнас (2009). «О производительности алгоритмов минимизации ${ displaystyle ell _ {1}}$ -штрафованные функционалы ». Обратные задачи. 25 (3): 035008. arXiv:0710.4082. Bibcode:2009InvPr..25c5008L. Дои:10.1088/0266-5611/25/3/035008.
^ De Mol, C .; De Vito, E .; Росаско, Л. (2009). «Регуляризация эластичной сети в теории обучения». J. Сложность. 25 (2): 201–230. arXiv:0807.3423. Дои:10.1016 / j.jco.2009.01.002.
^ Юань, М .; Лин, Ю. (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными». J. R. Stat. Soc. B. 68 (1): 49–67. Дои:10.1111 / j.1467-9868.2005.00532.x.
^ Чен, X .; Lin, Q .; Kim, S .; Carbonell, J.G .; Син, Э. (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии». Анна. Appl. Стат. 6 (2): 719–752. arXiv:1005.4717. Дои:10.1214 / 11-AOAS514.
^ Mosci, S .; Вилла, S .; Verri, A .; Росаско, Л. (2010). «Прямо-дуальный алгоритм для разреженной групповой регуляризации с перекрывающимися группами». НИПС. 23: 2604–2612.
^ ^а ^б Jenatton, R .; Audibert, J.-Y .; Бах, Ф. (2011). «Структурированный выбор переменных с нормами, вызывающими разреженность». J. Mach. Учиться. Res. 12: 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.
^ Zhao, P .; Rocha, G .; Ю. Б. (2009). «Семейство составных абсолютных штрафов за сгруппированный и иерархический выбор переменных». Анна. Стат. 37 (6A): 3468–3497. arXiv:0909.0411. Bibcode:2009arXiv0909.0411Z. Дои:10.1214 / 07-AOS584.
^ Обозинский, Гийом; Джейкоб, Лоран; Верт, Жан-Филипп (2011). "Групповое лассо с перекрытиями: скрытый подход группового лассо". arXiv:1110.0413 [stat.ML ].
^ Вилла, Сильвия; Росаско, Лоренцо; Моски, София; Верри, Алессандро (2012). «Проксимальные методы латентного группового штрафа лассо». arXiv:1209.0368 [math.OC ].

[combettes-1] а ^б ^c ^d ^е ^ж ^грамм ^час ^я Комбеты, Патрик Л .; Вайс, Валери Р. (2005). «Восстановление сигнала с помощью проксимального разделения вперед-назад». Мультимасштабная модель. Simul. 4 (4): 1168–1200. Дои:10.1137/050626090.

[structSparse-2] а ^б ^c ^d ^е Mosci, S .; Rosasco, L .; Matteo, S .; Verri, A .; Вилла, С. (2010). «Решение структурированной регуляризации разреженности с помощью проксимальных методов». Машинное обучение и обнаружение знаний в базах данных. Конспект лекций по информатике. 6322: 418–433. Дои:10.1007/978-3-642-15883-4_27. ISBN 978-3-642-15882-7.

[moreau-3] а ^б Моро, Ж.-Ж. (1962). «Fonctions convxes duales et points Proximaux dans un espace hilbertien». Comptes Rendus de l'Académie des Sciences, Série A. 255: 2897–2899. МИСТЕР 0144188. Zbl 0118.10502.

[bauschke-4] а ^б ^c Bauschke, H.H., и Combettes, P.L. (2011). Выпуклый анализ и теория монотонных операторов в гильбертовых пространствах. Springer.

[tibshirani-5] а ^б Тибширани Р. (1996). «Регрессионное сжатие и отбор с помощью лассо». J. R. Stat. Soc. Сер. B. 1. 58 (1): 267–288.

[daubechies-6] а ^б Daubechies, I .; Дефриз, М .; Де Мол, К. (2004). «Итерационный алгоритм пороговой обработки для линейной обратной задачи с ограничением разреженности». Comm. Pure Appl. Математика. 57 (11): 1413–1457. arXiv:математика / 0307152. Дои:10.1002 / cpa.20042.

[nesterov-7] Нестеров, Юрий (1983). «Метод решения задачи выпуклого программирования со скоростью сходимости. ${ Displaystyle О (1 / к ^ {2})}$ ". Советская математика - Доклады. 27 (2): 372–376.

[8] Нестеров, Юрий (2004). Вводные лекции по выпуклой оптимизации. Kluwer Academic Publisher.

[9] Вилла, S .; Salzo, S .; Baldassarre, L .; Верри, А. (2013). «Ускоренные и неточные алгоритмы вперед-назад». СИАМ Дж. Оптим. 23 (3): 1607–1633. CiteSeerX 10.1.1.416.3633. Дои:10.1137/110844805.

[bach-10] Бах, Ф .; Jenatton, R .; Mairal, J .; Обозинский, Гл. (2011). «Оптимизация со штрафами, вызывающими разреженность». Основы и тенденции в машинном обучении. 4 (1): 1–106. arXiv:1108.0775. Bibcode:2011arXiv1108.0775B. Дои:10.1561/2200000015.

[11] Лорис, I .; Bertero, M .; De Mol, C .; Zanella, R .; Занни, Л. (2009). "Методы проекции ускоренного градиента для ${ displaystyle ell _ {1}}$ -ограниченное восстановление сигнала по правилам выбора длины ". Прикладной и комп. Гармонический анализ. 27 (2): 247–254. arXiv:0902.4424. Дои:10.1016 / j.acha.2009.02.003.

[12] Wright, S.J .; Новак, Р.Д .; Фигейредо, M.A.T. (2009). «Разреженная реконструкция сепарабельным приближением». IEEE Trans. Процесс изображения. 57 (7): 2479–2493. Bibcode:2009ITSP ... 57.2479W. Дои:10.1109 / TSP.2009.2016892.

[13] Лорис, Игнас (2009). «О производительности алгоритмов минимизации ${ displaystyle ell _ {1}}$ -штрафованные функционалы ». Обратные задачи. 25 (3): 035008. arXiv:0710.4082. Bibcode:2009InvPr..25c5008L. Дои:10.1088/0266-5611/25/3/035008.

[deMolElasticNet-14] De Mol, C .; De Vito, E .; Росаско, Л. (2009). «Регуляризация эластичной сети в теории обучения». J. Сложность. 25 (2): 201–230. arXiv:0807.3423. Дои:10.1016 / j.jco.2009.01.002.

[groupLasso-15] Юань, М .; Лин, Ю. (2006). «Выбор модели и оценка в регрессии с сгруппированными переменными». J. R. Stat. Soc. B. 68 (1): 49–67. Дои:10.1111 / j.1467-9868.2005.00532.x.

[16] Чен, X .; Lin, Q .; Kim, S .; Carbonell, J.G .; Син, Э. (2012). «Метод сглаживания проксимального градиента для общей структурированной разреженной регрессии». Анна. Appl. Стат. 6 (2): 719–752. arXiv:1005.4717. Дои:10.1214 / 11-AOAS514.

[17] Mosci, S .; Вилла, S .; Verri, A .; Росаско, Л. (2010). «Прямо-дуальный алгоритм для разреженной групповой регуляризации с перекрывающимися группами». НИПС. 23: 2604–2612.

[nest-18] а ^б Jenatton, R .; Audibert, J.-Y .; Бах, Ф. (2011). «Структурированный выбор переменных с нормами, вызывающими разреженность». J. Mach. Учиться. Res. 12: 2777–2824. arXiv:0904.3523. Bibcode:2009arXiv0904.3523J.

[19] Zhao, P .; Rocha, G .; Ю. Б. (2009). «Семейство составных абсолютных штрафов за сгруппированный и иерархический выбор переменных». Анна. Стат. 37 (6A): 3468–3497. arXiv:0909.0411. Bibcode:2009arXiv0909.0411Z. Дои:10.1214 / 07-AOS584.

[20] Обозинский, Гийом; Джейкоб, Лоран; Верт, Жан-Филипп (2011). "Групповое лассо с перекрытиями: скрытый подход группового лассо". arXiv:1110.0413 [stat.ML ].

[21] Вилла, Сильвия; Росаско, Лоренцо; Моски, София; Верри, Алессандро (2012). «Проксимальные методы латентного группового штрафа лассо». arXiv:1209.0368 [math.OC ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]