Слабый надзор - Weak supervision

Слабый надзор это филиал машинное обучение где источники шума, ограниченного количества или неточности используются для обеспечения сигнала контроля для маркировки большого количества данные обучения в контролируемое обучение параметр.^[1] Такой подход снижает бремя получения наборов данных с ручными метками, что может быть дорогостоящим или непрактичным. Вместо этого используются недорогие слабые метки с пониманием того, что они несовершенны, но, тем не менее, их можно использовать для создания надежной модели прогнозирования.^[2]

Проблема размеченных обучающих данных

Модели и методы машинного обучения становятся все более доступными для исследователей и разработчиков; Однако реальная полезность этих моделей зависит от доступа к высококачественным размеченным обучающим данным.^[3] Эта потребность в маркированных обучающих данных часто оказывается значительным препятствием для применения моделей машинного обучения в организации или отрасли.^[1] Этот эффект узкого места проявляется по-разному, в том числе в следующих примерах:

Недостаточное количество помеченных данных

Когда методы машинного обучения изначально используются в новых приложениях или отраслях, часто не хватает данных обучения для применения традиционных процессов.^[4] В некоторых отраслях промышленности доступны данные по обучению за десятилетия; те, кто этого не делает, находятся в невыгодном положении. В таких случаях получение обучающих данных может оказаться непрактичным, дорогостоящим или невозможным, если не ждать годами их накопления.

Недостаточный опыт в предметной области для маркировки данных

Когда маркировка обучающих данных требует определенных соответствующих знаний, создание пригодного для использования набора обучающих данных может быстро стать чрезмерно дорогостоящим.^[4] Эта проблема может возникнуть, например, в биомедицинский или же связанный с безопасностью приложения машинного обучения.

Недостаточно времени для маркировки и подготовки данных

Большая часть времени, необходимого для внедрения машинного обучения, тратится на подготовку наборов данных.^[4] Когда отрасль или область исследований имеют дело с проблемами, которые по своей природе быстро развиваются, бывает невозможно собрать и подготовить данные достаточно быстро, чтобы результаты можно было использовать в реальных приложениях. Эта проблема могла возникнуть, например, в Обнаружение мошенничества или же информационная безопасность Приложения.

Существуют и другие области машинного обучения, которые также мотивированы спросом на увеличенное количество и качество маркированных обучающих данных, но используют различные высокоуровневые методы для удовлетворения этого спроса. Эти другие подходы включают активное изучение, полу-контролируемое обучение, и передача обучения.^[1]

Типы слабых ярлыков

Слабые этикетки предназначены для снижения стоимости и повышения эффективности человеческих усилий, затрачиваемых на ручную маркировку данных. Они могут принимать разные формы, в том числе следующие:

Неточные или неточные надписи: разработчики могут использовать более высокоуровневые, менее точные данные от профильных экспертов для создания эвристические правила, определить ожидаемые распределения или наложить другие ограничения на данные обучения.^[5]^[2]
Неточные этикетки: разработчики могут использовать недорогие и некачественные средства ввода с помощью таких средств, как краудсорсинг, для получения многочисленных этикеток, которые, как ожидается, не будут полностью правильными.^[2]
Существующие ресурсы: разработчики могут использовать существующие ресурсы (например, базы знаний, альтернативные наборы данных или предварительно обученные модели^[1]) для создания полезных, но не совсем подходящих для данной задачи меток.^[2]^[6]

Применение слабого надзора

В исследовательском сообществе машинного обучения множество применений слабого супервизора.

В 2014 г. исследователи из Калифорнийский университет в Беркли использовали принципы слабого надзора, чтобы предложить алгоритм итеративного обучения, который зависит исключительно от меток, генерируемых эвристикой, и устраняет необходимость в сборе любых достоверных меток.^[7]^[8] Алгоритм был применен к данным интеллектуального счетчика, чтобы узнать о занятости домохозяйства, даже не запрашивая данные о занятости, что подняло вопросы конфиденциальности и безопасности, о которых говорится в статье в IEEE Spectrum.^[9]

В 2018 году исследователи из UC Riverside предложил метод локализации действий / событий в видеороликах с использованием только слабого контроля, то есть меток на уровне видео, без какой-либо информации о времени начала и окончания событий во время обучения. Их работа ^[10] представил основанное на внимании сходство между двумя видео, которое действует как регуляризатор для обучения со слабыми ярлыками. После этого в 2019 году они представили новую проблему ^[11] локализации событий в видео по текстовым запросам пользователей, но со слабой аннотацией при обучении. Позже в сотрудничестве с NEC Laboratories America аналогичный механизм выравнивания на основе внимания со слабыми метками был введен для адаптации исходной семантической модели сегментации к целевому домену ^[12]. Когда слабые метки целевых изображений оцениваются с использованием исходной модели, это неконтролируемая адаптация домена, не требующая затрат на целевую аннотацию, а когда слабые метки получаются от аннотатора, это требует очень небольших затрат на аннотацию и подпадает под категория адаптации домена со слабым контролем, которая впервые вводится в этой работе для семантической сегментации.

Стэндфордский Университет Исследователи создали Snorkel, систему с открытым исходным кодом для быстрого сбора данных обучения при слабом контроле.^[13] Snorkel использует основные принципы парадигмы программирования данных,^[5] в котором разработчики создают функции маркировки, которые затем используются для программной маркировки данных, и применяют методы контролируемого обучения для оценки точности этих функций маркировки.^[14] Таким образом, потенциально низкокачественные исходные данные могут использоваться для создания высококачественных моделей.

В совместной работе с Google Исследователи из Стэнфорда показали, что существующие ресурсы организационных знаний можно превратить в слабые источники надзора и использовать для значительного сокращения затрат и времени на разработку.^[15]

В 2019 г. Массачусетский Институт Технологий и Google исследователи выпустили cleanlab, первую стандартизированную Python пакет для машинного обучения и глубокое обучение с шумными этикетками.^[16] Инструменты Cleanlab уверенное обучение,^[17]^[18] основы теории и алгоритмы для работы с неопределенностью в метках наборов данных, чтобы (1) найти ошибки меток в наборах данных, (2) охарактеризовать шум меток и (3) стандартизировать и упростить исследования при слабом контроле и обучении с зашумленными метками.^[19]

Исследователи из Массачусетский университет в Амхерсте предлагаю дополнить традиционные активное изучение подходы, запрашивая метки на объектах, а не на экземплярах в наборе данных.^[20]

Исследователи из Университет Джона Хопкинса предлагаем снизить затраты на маркировку наборов данных за счет того, что аннотаторы предоставят обоснование для каждой из своих аннотаций данных, а затем используют эти обоснования для обучения как дискриминационных, так и генеративных моделей маркировке дополнительных данных.^[21]

Исследователи из Университет Альберты предложить метод, который применяет традиционные подходы к активному обучению для повышения качества несовершенных ярлыков, предоставляемых слабым контролем.^[22]

^ ^а ^б ^c ^d Алекс Ратнер, Стивен Бах, Парома Варма, Крис Ре И ссылки на работы многих других членов Hazy Research. «Слабое наблюдение: новая парадигма программирования для машинного обучения». hazyresearch.github.io. Получено 2019-06-05.CS1 maint: несколько имен: список авторов (связь)
^ ^а ^б ^c ^d Чжоу, Чжи-Хуа (2018). «Краткое введение в обучение без учителя» (PDF). Национальный научный обзор. 5: 44–53. Дои:10.1093 / NSR / NWX106. S2CID 44192968. Получено 4 июн 2019.
^ «Наборы данных по алгоритмам». Космическая машина. Получено 2019-06-05.
^ ^а ^б ^c Ро, Юджи (8 ноября 2018 г.). «Обзор сбора данных для машинного обучения: перспективы интеграции больших данных и искусственного интеллекта». arXiv:1811.03402 [cs.LG ].
^ ^а ^б Ре, Кристофер; Сельсам, Даниэль; Ву, Сен; Де Са, Кристофер; Ратнер, Александр (25.05.2016). «Программирование данных: быстрое создание больших обучающих наборов». arXiv:1605.07723v3 [stat.ML ].
^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2020). «Структурированное прогнозирование с частичной маркировкой через инфимум убыток». ICML. 37. arXiv:2003.00920.
^ Джин, Мин; Цзя, Руокси; Канг, Чжаойи; Константакопулос, Иоаннис; Спанос, Костас (2014). «PresenceSense: алгоритм с нулевым обучением для индивидуального обнаружения присутствия на основе мониторинга мощности». Материалы 1-й конференции ACM по встроенным системам для энергоэффективных зданий: 1–10. Дои:10.1145/2674061.2674073.
^ Джин, Мин; Цзя, Руокси; Спанос, Костас (2017). «Виртуальное определение присутствия: использование интеллектуальных счетчиков для определения вашего присутствия». IEEE Transactions по мобильным вычислениям. 16 (11): 3264–3277. arXiv:1407.4395. Дои:10.1109 / TMC.2017.2684806.
^ "Что умный счетчик знает о вас?". IEEE Spectrum.
^ Пол, Суджой; Рой, Сурья; Рой-Чоудхури, Амит К. (2018). «W-TALC: Локализация и классификация временной активности под слабым контролем». Европейская конференция по компьютерному зрению (ECCV). arXiv:1807.10418.
^ Митхун, Нилутпол Чоудхури; Пол, Суджой; Рой-Чоудхури, Амит К. (2019). «Слабо контролируемое извлечение моментов видео из текстовых запросов». Компьютерное зрение и распознавание образов (CVPR). arXiv:1904.03282.
^ Пол, Суджой; Цай И-Сюань; Шультер, Сэмюэл; Рой-Чоудхури, Амит К .; Чандракер, Манмохан (2020). «Адаптивная семантическая сегментация предметной области с использованием слабых меток». Европейская конференция по компьютерному зрению (ECCV). arXiv:2007.15176.
^ «Трубка и рассвет слабого контролируемого машинного обучения · Stanford DAWN». dawn.cs.stanford.edu. Получено 2019-06-05.
^ "Трубка от HazyResearch". hazyresearch.github.io. Получено 2019-06-05.
^ Малкин, Роб; Ре, Кристофер; Куххал, Рахул; Альборзи, Хоуман; Хэнкок, Брейден; Ратнер, Александр; Сен, Сувик; Ся, Кассандра; Шао, Хайдун (2018-12-02). «Snorkel DryBell: пример внедрения слабого надзора в промышленных масштабах». Ход работы. Международная конференция Acm-Sigmod по управлению данными. 2019: 362–375. arXiv:1812.00417. Bibcode:2018arXiv181200417B. Дои:10.1145/3299869.3314036. ЧВК 6879379. PMID 31777414.
^ «Представляем cleanlab: пакет Python для машинного обучения и глубокого обучения наборов данных с ошибками меток». l7.curtisnorthcutt.com. Получено 2020-02-04.
^ «Введение в уверенное обучение: поиск и обучение с помощью ошибок меток в наборах данных». l7.curtisnorthcutt.com. Получено 2020-02-04.
^ Northcutt, Curtis G .; Цзян, Лу; Чуанг, Исаак Л. (31.10.2019). «Уверенное обучение: оценка неопределенности в метках набора данных». arXiv:1911.00068 [stat.ML ].
^ Норткатт, Кертис. «CleanLab для поиска и изучения шумных этикеток». Получено 9 октября 2019.
^ Драк, Грегори. «Активное обучение с помощью маркировки функций» (PDF). Получено 4 июн 2019.
^ Зайдан, Омар. «Машинное обучение с использованием аннотаторов для снижения стоимости аннотаций» (PDF). Получено 4 июн 2019.
^ Нашаат, Мона; Гош, Айндрила; Миллер, Джеймс; Квадер, Шейх; Марстон, Чад; Пюже, Жан-Франсуа (декабрь 2018 г.). «Гибридизация активного обучения и программирования данных для маркировки больших промышленных наборов данных». Международная конференция IEEE 2018 по большим данным (Big Data). Сиэтл, Вашингтон, США: IEEE: 46–55. Дои:10.1109 / BigData.2018.8622459. ISBN 9781538650356. S2CID 59233854.

[:0-1] а ^б ^c ^d Алекс Ратнер, Стивен Бах, Парома Варма, Крис Ре И ссылки на работы многих других членов Hazy Research. «Слабое наблюдение: новая парадигма программирования для машинного обучения». hazyresearch.github.io. Получено 2019-06-05.CS1 maint: несколько имен: список авторов (связь)

[:2-2] а ^б ^c ^d Чжоу, Чжи-Хуа (2018). «Краткое введение в обучение без учителя» (PDF). Национальный научный обзор. 5: 44–53. Дои:10.1093 / NSR / NWX106. S2CID 44192968. Получено 4 июн 2019.

[3] «Наборы данных по алгоритмам». Космическая машина. Получено 2019-06-05.

[:1-4] а ^б ^c Ро, Юджи (8 ноября 2018 г.). «Обзор сбора данных для машинного обучения: перспективы интеграции больших данных и искусственного интеллекта». arXiv:1811.03402 [cs.LG ].

[Data_Programming_1605-5] а ^б Ре, Кристофер; Сельсам, Даниэль; Ву, Сен; Де Са, Кристофер; Ратнер, Александр (25.05.2016). «Программирование данных: быстрое создание больших обучающих наборов». arXiv:1605.07723v3 [stat.ML ].

[6] Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2020). «Структурированное прогнозирование с частичной маркировкой через инфимум убыток». ICML. 37. arXiv:2003.00920.

[7] Джин, Мин; Цзя, Руокси; Канг, Чжаойи; Константакопулос, Иоаннис; Спанос, Костас (2014). «PresenceSense: алгоритм с нулевым обучением для индивидуального обнаружения присутствия на основе мониторинга мощности». Материалы 1-й конференции ACM по встроенным системам для энергоэффективных зданий: 1–10. Дои:10.1145/2674061.2674073.

[8] Джин, Мин; Цзя, Руокси; Спанос, Костас (2017). «Виртуальное определение присутствия: использование интеллектуальных счетчиков для определения вашего присутствия». IEEE Transactions по мобильным вычислениям. 16 (11): 3264–3277. arXiv:1407.4395. Дои:10.1109 / TMC.2017.2684806.

[9] "Что умный счетчик знает о вас?". IEEE Spectrum.

[10] Пол, Суджой; Рой, Сурья; Рой-Чоудхури, Амит К. (2018). «W-TALC: Локализация и классификация временной активности под слабым контролем». Европейская конференция по компьютерному зрению (ECCV). arXiv:1807.10418.

[11] Митхун, Нилутпол Чоудхури; Пол, Суджой; Рой-Чоудхури, Амит К. (2019). «Слабо контролируемое извлечение моментов видео из текстовых запросов». Компьютерное зрение и распознавание образов (CVPR). arXiv:1904.03282.

[12] Пол, Суджой; Цай И-Сюань; Шультер, Сэмюэл; Рой-Чоудхури, Амит К .; Чандракер, Манмохан (2020). «Адаптивная семантическая сегментация предметной области с использованием слабых меток». Европейская конференция по компьютерному зрению (ECCV). arXiv:2007.15176.

[13] «Трубка и рассвет слабого контролируемого машинного обучения · Stanford DAWN». dawn.cs.stanford.edu. Получено 2019-06-05.

[14] "Трубка от HazyResearch". hazyresearch.github.io. Получено 2019-06-05.

[15] Малкин, Роб; Ре, Кристофер; Куххал, Рахул; Альборзи, Хоуман; Хэнкок, Брейден; Ратнер, Александр; Сен, Сувик; Ся, Кассандра; Шао, Хайдун (2018-12-02). «Snorkel DryBell: пример внедрения слабого надзора в промышленных масштабах». Ход работы. Международная конференция Acm-Sigmod по управлению данными. 2019: 362–375. arXiv:1812.00417. Bibcode:2018arXiv181200417B. Дои:10.1145/3299869.3314036. ЧВК 6879379. PMID 31777414.

[16] «Представляем cleanlab: пакет Python для машинного обучения и глубокого обучения наборов данных с ошибками меток». l7.curtisnorthcutt.com. Получено 2020-02-04.

[17] «Введение в уверенное обучение: поиск и обучение с помощью ошибок меток в наборах данных». l7.curtisnorthcutt.com. Получено 2020-02-04.

[18] Northcutt, Curtis G .; Цзян, Лу; Чуанг, Исаак Л. (31.10.2019). «Уверенное обучение: оценка неопределенности в метках набора данных». arXiv:1911.00068 [stat.ML ].

[19] Норткатт, Кертис. «CleanLab для поиска и изучения шумных этикеток». Получено 9 октября 2019.

[20] Драк, Грегори. «Активное обучение с помощью маркировки функций» (PDF). Получено 4 июн 2019.

[21] Зайдан, Омар. «Машинное обучение с использованием аннотаторов для снижения стоимости аннотаций» (PDF). Получено 4 июн 2019.

[22] Нашаат, Мона; Гош, Айндрила; Миллер, Джеймс; Квадер, Шейх; Марстон, Чад; Пюже, Жан-Франсуа (декабрь 2018 г.). «Гибридизация активного обучения и программирования данных для маркировки больших промышленных наборов данных». Международная конференция IEEE 2018 по большим данным (Big Data). Сиэтл, Вашингтон, США: IEEE: 46–55. Дои:10.1109 / BigData.2018.8622459. ISBN 9781538650356. S2CID 59233854.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]