Многозадачное обучение - Multi-task learning

Многозадачное обучение (MTL) - это подполе машинное обучение в котором несколько учебных задач решаются одновременно, используя общие черты и различия между задачами. Это может привести к повышению эффективности обучения и точности прогнозов для моделей для конкретных задач по сравнению с обучением моделей по отдельности.[1][2][3] Ранние версии MTL назывались «подсказками».[4][5].

В широко цитируемой статье 1997 года Рич Каруана дал следующую характеристику:

Многозадачное обучение - это подход к индуктивный перенос это улучшает обобщение используя информацию о предметной области, содержащуюся в обучающих сигналах связанных задач, в качестве индуктивное смещение. Это достигается путем параллельного обучения задачам при использовании общего представление; то, что изучено для каждой задачи, может помочь лучше усвоить другие задачи.[3]

В контексте классификации MTL стремится улучшить выполнение нескольких задач классификации путем их совместного изучения. Одним из примеров является спам-фильтр, который можно рассматривать как отдельные, но связанные задачи классификации для разных пользователей. Чтобы сделать это более конкретным, учтите, что разные люди имеют разное распределение функций, которые отличают спам-сообщения от законных, например, говорящий по-английски может обнаружить, что все электронные письма на русском языке являются спамом, а не для русскоязычных. Тем не менее, у этой задачи классификации пользователей есть определенная общность, например, одной общей чертой может быть текст, связанный с денежным переводом. Совместное решение проблемы классификации спама каждого пользователя с помощью MTL может позволить решениям информировать друг друга и повысить производительность.[6] Дополнительные примеры настроек для MTL включают мультиклассовая классификация и классификация с несколькими этикетками.[7]

Многозадачное обучение работает, потому что регуляризация вызванный требованием того, чтобы алгоритм хорошо работал над связанной задачей, может превзойти регуляризацию, которая предотвращает переоснащение равномерно наказывая всю сложность. Одна из ситуаций, в которой MTL может быть особенно полезна, - это если задачи имеют существенные общие черты и обычно немного занижены.[8][6] Однако, как обсуждается ниже, MTL также оказался полезным для изучения несвязанных задач.[8][9]

Методы

Группировка задач и перекрытие

В рамках парадигмы MTL информация может совместно использоваться для некоторых или всех задач. В зависимости от структуры взаимосвязи задач может потребоваться выборочный обмен информацией по задачам. Например, задачи могут быть сгруппированы, существовать в иерархии или быть связаны в соответствии с некоторой общей метрикой. Предположим, что более формально показано ниже, что вектор параметров, моделирующий каждую задачу, представляет собой линейная комбинация какой-то основы. Сходство по этой основе может указывать на взаимосвязь задач. Например, с редкость, перекрытие ненулевых коэффициентов между задачами указывает на общность. Группировка задач тогда соответствует тем задачам, которые лежат в подпространстве, порожденном некоторым подмножеством базовых элементов, где задачи в разных группах могут не пересекаться или перекрываться произвольно с точки зрения их баз.[10] Связанность задач может быть наложена априори или извлечена из данных.[7][11] Иерархическая взаимосвязь задач также может использоваться неявно, не предполагая явных априорных знаний или обучающих отношений.[8][12]. Например, явное изучение релевантности выборки для разных задач может быть выполнено, чтобы гарантировать эффективность совместного обучения в нескольких областях.[8]

Использование несвязанных задач

Можно попытаться изучить группу основных задач, используя группу вспомогательных задач, не связанных с основными. Во многих приложениях совместное изучение несвязанных задач, использующих одни и те же входные данные, может быть полезным. Причина в том, что предварительные знания о взаимосвязи задач могут привести к более разреженным и более информативным представлениям для каждой группы задач, по сути, за счет исключения особенностей распределения данных. Были предложены новые методы, которые основаны на предыдущей методологии многозадачности, отдавая предпочтение общему низкоразмерному представлению в каждой группе задач. Программист может наложить штраф на задачи из разных групп, что побуждает два представления быть ортогональный. Эксперименты с синтетическими и реальными данными показали, что включение несвязанных задач может привести к значительным улучшениям по сравнению со стандартными методами многозадачного обучения.[9]

Передача знаний

С многозадачным обучением связана концепция передачи знаний. В то время как традиционное многозадачное обучение подразумевает, что совместно используемое представление разрабатывается одновременно для разных задач, передача знаний подразумевает последовательно разделяемое представление. Крупномасштабные проекты машинного обучения, такие как глубокое сверточная нейронная сеть GoogLeNet,[13] классификатор объектов на основе изображений, может создавать надежные представления, которые могут быть полезны для дальнейших задач, связанных с обучением алгоритмов. Например, предварительно обученная модель может использоваться в качестве экстрактора признаков для выполнения предварительной обработки для другого алгоритма обучения. Или предварительно обученную модель можно использовать для инициализации модели с аналогичной архитектурой, которая затем настраивается для изучения другой задачи классификации.[14]

Групповое адаптивное онлайн-обучение

Традиционно многозадачное обучение и передача знаний применяются в условиях стационарного обучения. Их распространение на нестационарные среды называется групповым онлайн-адаптивным обучением (ЦЕЛЬ).[15] Обмен информацией может быть особенно полезным, если учащиеся работают в постоянно меняющейся среде, потому что учащийся может извлечь выгоду из предыдущего опыта другого учащегося, чтобы быстро адаптироваться к своей новой среде. Такое групповое адаптивное обучение имеет множество применений, от прогнозирования финансовых временных рядов с помощью систем рекомендаций по содержанию до визуального понимания для адаптивных автономных агентов.

Математика

Воспроизводящее гильбертово пространство векторных функций (RKHSvv)

Проблема MTL может быть приведена в контексте RKHSvv (a полный внутреннее пространство продукта из векторнозначные функции оснащен воспроизводящее ядро ). В частности, в последнее время основное внимание уделялось случаям, когда структура задачи может быть идентифицирована через разделяемое ядро, описанное ниже. Представленная здесь презентация основана на Ciliberto et al., 2015.[7]

Концепции RKHSvv

Предположим, что набор обучающих данных , с , , куда т индексирует задачу и . Позволять . В этом параметре есть согласованное пространство ввода и вывода и одно и то же функция потерь для каждой задачи:. Это приводит к упорядоченной проблеме машинного обучения:

 

 

 

 

(1)

куда - векторнозначное воспроизводящее ядро ​​гильбертова пространства с функциями имеющий компоненты .

Воспроизводящее ядро ​​для космоса функций - симметричная матричнозначная функция , так что и имеет место следующее воспроизводящее свойство:

 

 

 

 

(2)

Воспроизводящее ядро ​​приводит к теореме о представителе, показывающей, что любое решение уравнения 1 имеет вид:

 

 

 

 

(3)

Отделяемые ядра

Форма ядра Γ индуцирует как представление пространство функций и структурирует вывод по задачам. Естественное упрощение - выбрать отделяемое ядро, который делится на отдельные ядра во входном пространстве Икс и по задачам . В этом случае ядро, связывающее скалярные компоненты и дан кем-то . Для векторнозначных функций мы можем написать , куда k - скалярное воспроизводящее ядро, и А является симметричным положительным полуопределенным матрица. В дальнейшем обозначать .

Это свойство факторизации, разделимость, подразумевает, что входное представление пространства признаков не зависит от задачи. То есть нет взаимодействия между входным ядром и ядром задачи. Структура по задачам представлена ​​исключительно А. Способы получения неотделимых ядер Γ это текущая область исследований.

Для сепарабельного случая теорема о представлении сводится к . Выход модели для данных обучения затем KCA , куда K это матрица эмпирического ядра с элементами , и C это матрица строк .

С отделимым ядром уравнение 1 можно переписать как

 

 

 

 

(п)

куда V представляет собой (взвешенное) среднее значение L применяется по отношению к Y и KCA. (Вес равен нулю, если это отсутствующее наблюдение).

Обратите внимание на второй член в п можно получить следующим образом:

Известная структура задачи

Представления структуры задач

Существует три в основном эквивалентных способа представления структуры задачи: через регуляризатор; через метрику вывода и через отображение вывода.

Регуляризатор — С отделимым ядром можно показать (ниже), что , куда это элемент псевдообратного , и - RKHS на основе скалярного ядра , и . Эта формулировка показывает, что контролирует вес штрафа, связанный с . (Обратите внимание, что возникает из .)

Доказательство —

Показатель вывода — альтернативная метрика вывода на может быть вызвано внутренним продуктом . С квадратом потерь существует эквивалентность разделимых ядер под альтернативной метрикой и , при канонической метрике.

Отображение выходных данных — Выходы можно отобразить как в пространство более высокой размерности для кодирования сложных структур, таких как деревья, графы и строки. Для линейных карт L, при соответствующем выборе разделяемого ядра можно показать, что .

Примеры структуры задач

С помощью формулировки регуляризатора можно легко представить множество структур задач.

  • Сдача (куда это ТИксТ единичная матрица и это ТИксТ матрица единиц) эквивалентно разрешению Γ контролировать дисперсию задач от их среднего . Например, можно измерить уровень некоторых биомаркеров в крови. Т пациенты в моменты времени в течение дня, и интерес может заключаться в регуляризации дисперсии прогнозов для разных пациентов.
  • Сдача , куда эквивалентно разрешению контролировать дисперсию, измеренную относительно среднего значения группы: . (Здесь мощность группы r, и - индикаторная функция). Например, люди в разных политических партиях (группах) могут быть объединены в регуляризацию с точки зрения прогнозирования рейтинга благосклонности политика. Обратите внимание, что этот штраф уменьшается до первого, когда все задачи находятся в одной группе.
  • Сдача , куда это Lаплацианский для графа с матрицей смежности M давая попарное сходство задач. Это эквивалентно большему штрафу за задачи разделения расстояний. т и s когда они более похожи (по весу ,) т.е. упорядочивает .
  • Все указанные выше варианты выбора A также вызывают дополнительный член регуляризации который штрафует сложность f в более широком смысле.

Учебные задания вместе с их структурой

Проблема обучения п можно обобщить, чтобы допускать матрицу задач обучения A следующим образом:

 

 

 

 

(Q)

Выбор должен быть разработан для изучения матриц А данного типа. См. «Особые случаи» ниже.

Оптимизация Q

Ограничение случаем выпуклый потери и принудительный штрафы Чилиберто и другие. показали, что хотя Q вместе не выпукла в C и А, родственная задача является совместно выпуклой.

Конкретно на выпуклом множестве , эквивалентная задача

 

 

 

 

(р)

выпукла с тем же минимальным значением. И если минимизатор для р тогда минимизатор для Q.

р может быть решена барьерным методом на замкнутом множестве путем введения следующего возмущения:

 

 

 

 

(S)

Возмущение через барьер заставляет целевые функции быть равными на границе .

S решается методом блочного координатного спуска, чередуя C и А. Это приводит к последовательности минимизаторов в S которое сходится к решению в р в качестве , и, следовательно, дает решение Q.

Особые случаи

Призрачные штрафы - Диннузо и другие[16] предлагаемая настройка F как норма Фробениуса . Они оптимизировали Q напрямую с помощью блочного координатного спуска, не учитывая затруднений на границе .

Обучение кластерным задачам - Джейкоб и другие[17] предложил узнать А в обстановке, где Т задачи организованы в р непересекающиеся кластеры. В этом случае пусть быть матрицей с . Параметр , и , матрица задач можно параметризовать как функцию : , с условиями, которые штрафуют среднее значение, между дисперсией кластеров и дисперсией внутри кластеров, соответственно, прогнозов задачи. M не выпуклый, но имеется выпуклая релаксация . В этой формулировке .

Обобщения

Невыпуклые штрафы - Штрафы могут быть построены так, что A должен быть лапласианом графа, или что A имеет факторизацию низкого ранга. Однако эти штрафы не являются выпуклыми, и анализ барьерного метода, предложенный Ciliberto et al. не проходит в этих случаях.

Неразъемные ядра - Разделимые ядра ограничены, в частности, они не учитывают структуры в пространстве взаимодействия между входным и выходным доменами совместно. Дальнейшая работа необходима для разработки моделей для этих ядер.

Приложения

Фильтрация спама

Используя принципы MTL, методы совместной работы фильтрация спама что облегчает персонализацию. В крупномасштабных системах электронной почты с открытым членством большинство пользователей не маркируют достаточно сообщений для отдельного локального пользователя. классификатор чтобы быть эффективными, в то время как данные слишком шумные, чтобы их можно было использовать для глобального фильтра для всех пользователей. Гибридный глобальный / индивидуальный классификатор может эффективно поглощать влияние пользователей, которые очень старательно маркируют электронные письма от широкой публики. Этого можно достичь, обеспечивая при этом достаточное качество для пользователей с несколькими помеченными экземплярами.[18]

веб-поиск

Использование ускоренного деревья решений, можно включить неявный обмен данными и регуляризацию. Этот метод обучения можно использовать в наборах данных ранжирования веб-поиска. Одним из примеров является использование наборов данных ранжирования из нескольких стран. Здесь многозадачное обучение особенно полезно, поскольку наборы данных из разных стран в значительной степени различаются по размеру из-за стоимости редакционных суждений. Было продемонстрировано, что совместное обучение различным задачам может привести к значительному повышению производительности с удивительной надежностью.[19]

Пакет программного обеспечения

Многозадачное обучение с помощью пакета Matlab StructurAl Regularization (MALSAR)[20] реализует следующие алгоритмы многозадачного обучения:

  • Средне-регулярное многозадачное обучение[21][22]
  • Многозадачное обучение с совместным выбором функций[23]
  • Надежное многозадачное обучение[24]
  • Регуляризованное многозадачное обучение по нормам[25]
  • Альтернативная структурная оптимизация[26][27]
  • Некогерентное низкоранговое и разреженное обучение[28]
  • Надежное многозадачное обучение низкого ранга
  • Кластерное многозадачное обучение[29][30]
  • Многозадачное обучение с графическими структурами

Смотрите также

Рекомендации

  1. ^ Бакстер, Дж. (2000). Модель индуктивного обучения с предвзятостью " Журнал исследований искусственного интеллекта 12:149--198, Он-лайн бумага
  2. ^ Трун, С. (1996). Разве выучить n-ю вещь легче, чем выучить первую? В достижениях в системах обработки нейронной информации 8, стр. 640-646. MIT Press. Бумага в Citeseer
  3. ^ а б Каруана, Р. (1997). «Многозадачное обучение» (PDF). Машинное обучение. 28: 41–75. Дои:10.1023 / А: 1007379606734.
  4. ^ Suddarth, S., Kergosien, Y. (1990). Подсказки по внедрению правил как средство повышения производительности сети и увеличения времени обучения. Мастерская EURASIP. Нейронные сети с. 120-129. Конспект лекций по информатике. Springer.
  5. ^ Абу-Мостафа, Ю.С. (1990). «Обучение по подсказкам в нейронных сетях». Журнал сложности. 6 (2): 192–198. Дои:10.1016 / 0885-064х (90) 90006-у.
  6. ^ а б Вайнбергер, Килиан. «Многозадачное обучение».
  7. ^ а б c Силиберто, К. (2015). «Выпуклое обучение множеству задач и их структура». arXiv:1504.03101 [cs.LG ].
  8. ^ а б c d Хаджирамезанали, Э., Дадане, С. З., Кербалайгара, А., Чжоу, З., Цянь, X. Байесовское многодоменное обучение для обнаружения подтипов рака на основе данных подсчета секвенирования следующего поколения. 32-я конференция по системам обработки нейронной информации (NIPS 2018), Монреаль, Канада. arXiv:1810.09433
  9. ^ а б Ромера-Паредес, Б., Аргириу, А., Бьянки-Бертуз, Н., и Понтил, М., (2012) Использование несвязанных задач в многозадачном обучении. http://jmlr.csail.mit.edu/proceedings/papers/v22/romera12/romera12.pdf
  10. ^ Кумар, А., и Дауме III, Х., (2012) Группировка учебных задач и перекрытие в многозадачном обучении. http://icml.cc/2012/papers/690.pdf
  11. ^ Джаванпурия, П., и Сакета Нат, Дж., (2012) Формулировка обучения выпуклым признакам для обнаружения скрытой структуры задач. http://icml.cc/2012/papers/90.pdf
  12. ^ Цвейг А. и Вайншалл Д. Каскад иерархической регуляризации для совместного обучения. Материалы: 30-й Международной конференции по машинному обучению (ICML), Атланта, Джорджия, июнь 2013 г. http://www.cs.huji.ac.il/~daphna/papers/Zweig_ICML2013.pdf
  13. ^ Сегеди, Кристиан; Вэй Лю, Юсеф; Янцин Цзя, Томасо; Сермане, Пьер; Рид, Скотт; Ангуелов, Драгомир; Эрхан, Думитру; Ванхаук, Винсент; Рабинович, Андрей (2015). «Углубляясь в извилины». Конференция IEEE по компьютерному зрению и распознаванию образов (CVPR) 2015 г.. С. 1–9. arXiv:1409.4842. Дои:10.1109 / CVPR.2015.7298594. ISBN  978-1-4673-6964-0.
  14. ^ Роиг, Джемма. «Обзор глубокого обучения» (PDF).
  15. ^ Цвейг А. и Чечик Г. Групповое адаптивное онлайн-обучение. Машинное обучение, DOI 10.1007 / s10994-017-5661-5, август 2017 г. http://rdcu.be/uFSv
  16. ^ Динуццо, Франческо (2011). «Обучение ядер вывода с блочным спуском координат» (PDF). Материалы 28-й Международной конференции по машинному обучению (ICML-11). Архивировано из оригинал (PDF) на 2017-08-08.
  17. ^ Джейкоб, Лоран (2009). «Кластерное многозадачное обучение: выпуклая формулировка». Достижения в системах обработки нейронной информации. arXiv:0809.2085. Bibcode:2008arXiv0809.2085J.
  18. ^ Аттенберг, Дж., Вайнбергер, К., и Дасгупта, А. Совместная фильтрация электронной почты и спама с помощью трюка хеширования. http://www.cse.wustl.edu/~kilian/papers/ceas2009-paper-11.pdf
  19. ^ Чаппель, О., Шивасвами, П., и Вадреву, С. Многозадачное обучение для повышения рейтинга приложений в веб-поиске. http://www.cse.wustl.edu/~kilian/papers/multiboost2010.pdf
  20. ^ Чжоу, Дж., Чен, Дж. И Йе, Дж. МАЛСАР: многоцелевое обучение через структурную регуляризацию. Государственный университет Аризоны, 2012. http://www.public.asu.edu/~jye02/Software/MALSAR. Он-лайн руководство
  21. ^ Евгениу, Т., и Понтил, М. (2004). Регулярное многозадачное обучение. Материалы десятой международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (стр. 109–117).
  22. ^ Евгений, Т .; Micchelli, C .; Понтил, М. (2005). «Изучение нескольких задач с помощью методов ядра» (PDF). Журнал исследований в области машинного обучения. 6: 615.
  23. ^ Argyriou, A .; Евгений, Т .; Понтил, М. (2008a). «Выпуклое многозадачное изучение функций». Машинное обучение. 73 (3): 243–272. Дои:10.1007 / s10994-007-5040-8.
  24. ^ Чен, Дж., Чжоу, Дж., И Е, Дж. (2011). Интеграция низкоранговых и разреженных на группы структур для надежного многозадачного обучения. Материалы десятой международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных.
  25. ^ Джи, С., и Е, Дж. (2009). Метод ускоренного градиента для минимизации нормы следа. Материалы 26-й ежегодной международной конференции по машинному обучению (стр. 457–464).
  26. ^ Ando, ​​R .; Чжан, Т. (2005). «Фреймворк для изучения прогнозных структур из множества задач и немаркированных данных» (PDF). Журнал исследований в области машинного обучения. 6: 1817–1853.
  27. ^ Чен, Дж., Тан, Л., Лю, Дж., И Е, Дж. (2009). Выпуклая формулировка для изучения общих структур из нескольких задач. Материалы 26-й ежегодной международной конференции по машинному обучению (стр. 137–144).
  28. ^ Чен, Дж., Лю, Дж., И Е, Дж. (2010). Изучение бессвязных разреженных и низкоуровневых паттернов из нескольких задач. Материалы 16-й международной конференции ACM SIGKDD по открытию знаний и интеллектуальному анализу данных (стр. 1179–1188).
  29. ^ Джейкоб Л., Бах Ф. и Верт Дж. (2008). Кластерное многозадачное обучение: выпуклая формулировка. Достижения в системах обработки нейронной информации , 2008 г.
  30. ^ Чжоу, Дж., Чен, Дж., И Е, Дж. (2011). Кластерное многозадачное обучение посредством оптимизации чередующейся структуры. Достижения в системах обработки нейронной информации.

внешняя ссылка

Программного обеспечения