Помеченные данные - Википедия - Labeled data

Помеченные данные это группа образцы которые были помечены одним или несколькими ярлыками. Маркировка обычно берет набор немаркированных данных и дополняет каждую его часть информативными тегами. Например, метка данных может указывать, содержит ли фотография лошадь или корову, какие слова были произнесены в аудиозаписи, какой тип действия выполняется в видео, какова тема новостной статьи, какова общая тональность твита, или является ли точка на рентгеновском снимке опухолью.

Ярлыки можно получить, попросив людей вынести суждение о данном фрагменте немаркированных данных. Помеченные данные получить значительно дороже, чем необработанные немаркированные данные.

Размеченные данные краудсорсинга

В 2006 г. Фэй-Фэй Ли, содиректор Стэнфордского института искусственного интеллекта, ориентированного на человека, намеревается улучшить искусственный интеллект модели и алгоритмы распознавания изображений за счет значительного увеличения данные обучения. Исследователи загрузили миллионы изображений из Всемирная паутина и группа студентов начала наклеивать ярлыки для объектов на каждое изображение. В 2007 году Ли поручил работу по маркировке данных Amazon Mechanical Turk, а онлайн-торговая площадка для цифровых сдельная работа. 3,2 миллиона изображений, которые были размечены более чем 49 000 сотрудников, легли в основу ImageNet, одна из крупнейших вручную размеченных баз данных для схема распознавания объекта.[1]

Автоматическая маркировка данных

После получения помеченного набора данных машинное обучение модели могут быть применены к данным, так что новые немаркированные данные могут быть представлены модели и вероятная метка может быть угадана или предсказана для этой части немаркированных данных.[2]

Предвзятость, связанная с данными

Принятие алгоритмических решений подвержено предвзятости как со стороны программистов, так и со стороны данных. Данные обучения, основанные на данных с пометкой о предвзятости, приведут к предубеждениям и упущениям в прогнозная модель, несмотря на то, что алгоритм машинного обучения легитимен. Помеченные данные, используемые для обучения определенного алгоритма машинного обучения, должны быть статистически репрезентативный образец чтобы не искажать результаты.[3] Поскольку маркированные данные доступны для обучения системы распознавания лиц не был репрезентативным для населения, недопредставленные группы в помеченных данных позже часто неправильно классифицируются. В 2018 году исследование Джой Буоламвини и Тимнит Гебру продемонстрировали, что два набора данных анализа лиц, которые использовались для обучения алгоритмов распознавания лиц, IJB-A и Adience, состоят из людей с более светлой кожей на 79,6% и 86,2% соответственно.[4]

Рекомендации

  1. ^ Мэри Л. Грей и Сиддхарт Сури (2019). Призрачная работа: как помешать Кремниевой долине создать новый глобальный низший класс. Houghton Mifflin Harcourt. п. 7. ISBN  9781328566287.CS1 maint: использует параметр авторов (связь)
  2. ^ Джонсон, Лейф. "В чем разница между помеченными и немаркированными данными?", Переполнение стека, 4 октября 2013 г. Проверено 13 мая 2017 г. Эта статья включает текст к lmjohns3 доступно под CC BY-SA 3.0 лицензия.
  3. ^ Сяньхун Ху, Неупане, Бхану, Эчайз, Люсия Флорес, Сибал, Пратик, Ривера Лам, Макарена (2019). Управление ИИ и передовыми ИКТ в обществах знаний: права, открытость, доступ и многосторонняя перспектива. Издательство ЮНЕСКО. п. 64. ISBN  9789231003639.CS1 maint: использует параметр авторов (связь)
  4. ^ Сяньхун Ху, Неупане, Бхану, Эчайз, Люсия Флорес, Сибал, Пратик, Ривера Лам, Макарена (2019). Управление ИИ и передовыми ИКТ в обществах знаний: права, открытость, доступ и многосторонняя перспектива. Издательство ЮНЕСКО. п. 66. ISBN  9789231003639.CS1 maint: использует параметр авторов (связь)