Слабый надзор - Weak supervision

Слабый надзор это филиал машинное обучение где источники шума, ограниченного количества или неточности используются для обеспечения сигнала контроля для маркировки большого количества данные обучения в контролируемое обучение параметр.[1] Такой подход снижает бремя получения наборов данных с ручными метками, что может быть дорогостоящим или непрактичным. Вместо этого используются недорогие слабые метки с пониманием того, что они несовершенны, но, тем не менее, их можно использовать для создания надежной модели прогнозирования.[2]

Проблема размеченных обучающих данных

Модели и методы машинного обучения становятся все более доступными для исследователей и разработчиков; Однако реальная полезность этих моделей зависит от доступа к высококачественным размеченным обучающим данным.[3] Эта потребность в маркированных обучающих данных часто оказывается значительным препятствием для применения моделей машинного обучения в организации или отрасли.[1] Этот эффект узкого места проявляется по-разному, в том числе в следующих примерах:

Недостаточное количество помеченных данных

Когда методы машинного обучения изначально используются в новых приложениях или отраслях, часто не хватает данных обучения для применения традиционных процессов.[4] В некоторых отраслях промышленности доступны данные по обучению за десятилетия; те, кто этого не делает, находятся в невыгодном положении. В таких случаях получение обучающих данных может оказаться непрактичным, дорогостоящим или невозможным, если не ждать годами их накопления.

Недостаточный опыт в предметной области для маркировки данных

Когда маркировка обучающих данных требует определенных соответствующих знаний, создание пригодного для использования набора обучающих данных может быстро стать чрезмерно дорогостоящим.[4] Эта проблема может возникнуть, например, в биомедицинский или же связанный с безопасностью приложения машинного обучения.

Недостаточно времени для маркировки и подготовки данных

Большая часть времени, необходимого для внедрения машинного обучения, тратится на подготовку наборов данных.[4] Когда отрасль или область исследований имеют дело с проблемами, которые по своей природе быстро развиваются, бывает невозможно собрать и подготовить данные достаточно быстро, чтобы результаты можно было использовать в реальных приложениях. Эта проблема могла возникнуть, например, в Обнаружение мошенничества или же информационная безопасность Приложения.

Существуют и другие области машинного обучения, которые также мотивированы спросом на увеличенное количество и качество маркированных обучающих данных, но используют различные высокоуровневые методы для удовлетворения этого спроса. Эти другие подходы включают активное изучение, полу-контролируемое обучение, и передача обучения.[1]

Типы слабых ярлыков

Слабые этикетки предназначены для снижения стоимости и повышения эффективности человеческих усилий, затрачиваемых на ручную маркировку данных. Они могут принимать разные формы, в том числе следующие:

  • Неточные или неточные надписи: разработчики могут использовать более высокоуровневые, менее точные данные от профильных экспертов для создания эвристические правила, определить ожидаемые распределения или наложить другие ограничения на данные обучения.[5][2]
  • Неточные этикетки: разработчики могут использовать недорогие и некачественные средства ввода с помощью таких средств, как краудсорсинг, для получения многочисленных этикеток, которые, как ожидается, не будут полностью правильными.[2]
  • Существующие ресурсы: разработчики могут использовать существующие ресурсы (например, базы знаний, альтернативные наборы данных или предварительно обученные модели[1]) для создания полезных, но не совсем подходящих для данной задачи меток.[2][6]

Применение слабого надзора

В исследовательском сообществе машинного обучения множество применений слабого супервизора.

В 2014 г. исследователи из Калифорнийский университет в Беркли использовали принципы слабого надзора, чтобы предложить алгоритм итеративного обучения, который зависит исключительно от меток, генерируемых эвристикой, и устраняет необходимость в сборе любых достоверных меток.[7][8] Алгоритм был применен к данным интеллектуального счетчика, чтобы узнать о занятости домохозяйства, даже не запрашивая данные о занятости, что подняло вопросы конфиденциальности и безопасности, о которых говорится в статье в IEEE Spectrum.[9]

В 2018 году исследователи из UC Riverside предложил метод локализации действий / событий в видеороликах с использованием только слабого контроля, то есть меток на уровне видео, без какой-либо информации о времени начала и окончания событий во время обучения. Их работа [10] представил основанное на внимании сходство между двумя видео, которое действует как регуляризатор для обучения со слабыми ярлыками. После этого в 2019 году они представили новую проблему [11] локализации событий в видео по текстовым запросам пользователей, но со слабой аннотацией при обучении. Позже в сотрудничестве с NEC Laboratories America аналогичный механизм выравнивания на основе внимания со слабыми метками был введен для адаптации исходной семантической модели сегментации к целевому домену [12]. Когда слабые метки целевых изображений оцениваются с использованием исходной модели, это неконтролируемая адаптация домена, не требующая затрат на целевую аннотацию, а когда слабые метки получаются от аннотатора, это требует очень небольших затрат на аннотацию и подпадает под категория адаптации домена со слабым контролем, которая впервые вводится в этой работе для семантической сегментации.

Стэндфордский Университет Исследователи создали Snorkel, систему с открытым исходным кодом для быстрого сбора данных обучения при слабом контроле.[13] Snorkel использует основные принципы парадигмы программирования данных,[5] в котором разработчики создают функции маркировки, которые затем используются для программной маркировки данных, и применяют методы контролируемого обучения для оценки точности этих функций маркировки.[14] Таким образом, потенциально низкокачественные исходные данные могут использоваться для создания высококачественных моделей.

В совместной работе с Google Исследователи из Стэнфорда показали, что существующие ресурсы организационных знаний можно превратить в слабые источники надзора и использовать для значительного сокращения затрат и времени на разработку.[15]

В 2019 г. Массачусетский Институт Технологий и Google исследователи выпустили cleanlab, первую стандартизированную Python пакет для машинного обучения и глубокое обучение с шумными этикетками.[16] Инструменты Cleanlab уверенное обучение,[17][18] основы теории и алгоритмы для работы с неопределенностью в метках наборов данных, чтобы (1) найти ошибки меток в наборах данных, (2) охарактеризовать шум меток и (3) стандартизировать и упростить исследования при слабом контроле и обучении с зашумленными метками.[19]

Исследователи из Массачусетский университет в Амхерсте предлагаю дополнить традиционные активное изучение подходы, запрашивая метки на объектах, а не на экземплярах в наборе данных.[20]

Исследователи из Университет Джона Хопкинса предлагаем снизить затраты на маркировку наборов данных за счет того, что аннотаторы предоставят обоснование для каждой из своих аннотаций данных, а затем используют эти обоснования для обучения как дискриминационных, так и генеративных моделей маркировке дополнительных данных.[21]

Исследователи из Университет Альберты предложить метод, который применяет традиционные подходы к активному обучению для повышения качества несовершенных ярлыков, предоставляемых слабым контролем.[22]

  1. ^ а б c d Алекс Ратнер, Стивен Бах, Парома Варма, Крис Ре И ссылки на работы многих других членов Hazy Research. «Слабое наблюдение: новая парадигма программирования для машинного обучения». hazyresearch.github.io. Получено 2019-06-05.CS1 maint: несколько имен: список авторов (связь)
  2. ^ а б c d Чжоу, Чжи-Хуа (2018). «Краткое введение в обучение без учителя» (PDF). Национальный научный обзор. 5: 44–53. Дои:10.1093 / NSR / NWX106. S2CID  44192968. Получено 4 июн 2019.
  3. ^ «Наборы данных по алгоритмам». Космическая машина. Получено 2019-06-05.
  4. ^ а б c Ро, Юджи (8 ноября 2018 г.). «Обзор сбора данных для машинного обучения: перспективы интеграции больших данных и искусственного интеллекта». arXiv:1811.03402 [cs.LG ].
  5. ^ а б Ре, Кристофер; Сельсам, Даниэль; Ву, Сен; Де Са, Кристофер; Ратнер, Александр (25.05.2016). «Программирование данных: быстрое создание больших обучающих наборов». arXiv:1605.07723v3 [stat.ML ].
  6. ^ Кабанн, Вивьен; Руди, Алессандро; Бах, Фрэнсис (2020). «Структурированное прогнозирование с частичной маркировкой через инфимум убыток». ICML. 37. arXiv:2003.00920.
  7. ^ Джин, Мин; Цзя, Руокси; Канг, Чжаойи; Константакопулос, Иоаннис; Спанос, Костас (2014). «PresenceSense: алгоритм с нулевым обучением для индивидуального обнаружения присутствия на основе мониторинга мощности». Материалы 1-й конференции ACM по встроенным системам для энергоэффективных зданий: 1–10. Дои:10.1145/2674061.2674073.
  8. ^ Джин, Мин; Цзя, Руокси; Спанос, Костас (2017). «Виртуальное определение присутствия: использование интеллектуальных счетчиков для определения вашего присутствия». IEEE Transactions по мобильным вычислениям. 16 (11): 3264–3277. arXiv:1407.4395. Дои:10.1109 / TMC.2017.2684806.
  9. ^ "Что умный счетчик знает о вас?". IEEE Spectrum.
  10. ^ Пол, Суджой; Рой, Сурья; Рой-Чоудхури, Амит К. (2018). «W-TALC: Локализация и классификация временной активности под слабым контролем». Европейская конференция по компьютерному зрению (ECCV). arXiv:1807.10418.
  11. ^ Митхун, Нилутпол Чоудхури; Пол, Суджой; Рой-Чоудхури, Амит К. (2019). «Слабо контролируемое извлечение моментов видео из текстовых запросов». Компьютерное зрение и распознавание образов (CVPR). arXiv:1904.03282.
  12. ^ Пол, Суджой; Цай И-Сюань; Шультер, Сэмюэл; Рой-Чоудхури, Амит К .; Чандракер, Манмохан (2020). «Адаптивная семантическая сегментация предметной области с использованием слабых меток». Европейская конференция по компьютерному зрению (ECCV). arXiv:2007.15176.
  13. ^ «Трубка и рассвет слабого контролируемого машинного обучения · Stanford DAWN». dawn.cs.stanford.edu. Получено 2019-06-05.
  14. ^ "Трубка от HazyResearch". hazyresearch.github.io. Получено 2019-06-05.
  15. ^ Малкин, Роб; Ре, Кристофер; Куххал, Рахул; Альборзи, Хоуман; Хэнкок, Брейден; Ратнер, Александр; Сен, Сувик; Ся, Кассандра; Шао, Хайдун (2018-12-02). «Snorkel DryBell: пример внедрения слабого надзора в промышленных масштабах». Ход работы. Международная конференция Acm-Sigmod по управлению данными. 2019: 362–375. arXiv:1812.00417. Bibcode:2018arXiv181200417B. Дои:10.1145/3299869.3314036. ЧВК  6879379. PMID  31777414.
  16. ^ «Представляем cleanlab: пакет Python для машинного обучения и глубокого обучения наборов данных с ошибками меток». l7.curtisnorthcutt.com. Получено 2020-02-04.
  17. ^ «Введение в уверенное обучение: поиск и обучение с помощью ошибок меток в наборах данных». l7.curtisnorthcutt.com. Получено 2020-02-04.
  18. ^ Northcutt, Curtis G .; Цзян, Лу; Чуанг, Исаак Л. (31.10.2019). «Уверенное обучение: оценка неопределенности в метках набора данных». arXiv:1911.00068 [stat.ML ].
  19. ^ Норткатт, Кертис. «CleanLab для поиска и изучения шумных этикеток». Получено 9 октября 2019.
  20. ^ Драк, Грегори. «Активное обучение с помощью маркировки функций» (PDF). Получено 4 июн 2019.
  21. ^ Зайдан, Омар. «Машинное обучение с использованием аннотаторов для снижения стоимости аннотаций» (PDF). Получено 4 июн 2019.
  22. ^ Нашаат, Мона; Гош, Айндрила; Миллер, Джеймс; Квадер, Шейх; Марстон, Чад; Пюже, Жан-Франсуа (декабрь 2018 г.). «Гибридизация активного обучения и программирования данных для маркировки больших промышленных наборов данных». Международная конференция IEEE 2018 по большим данным (Big Data). Сиэтл, Вашингтон, США: IEEE: 46–55. Дои:10.1109 / BigData.2018.8622459. ISBN  9781538650356. S2CID  59233854.