Контролируемое обучение - Supervised learning

Контролируемое обучение это машинное обучение задача изучения функции, которая отображает вход в выход на основе примеров пар вход-выход.^[1] Он выводит функцию из маркированный данные обучения состоящий из набора примеры обучения.^[2] В обучении с учителем каждый пример представляет собой пара состоящий из входного объекта (обычно вектора) и желаемого выходного значения (также называемого контрольный сигнал). Алгоритм обучения с учителем анализирует данные обучения и выдает предполагаемую функцию, которую можно использовать для отображения новых примеров. Оптимальный сценарий позволит алгоритму правильно определять метки классов для невидимых экземпляров. Это требует от алгоритма обучения «разумного» обобщения обучающих данных на невидимые ситуации (см. индуктивное смещение ).

Параллельная задача в психологии человека и животных часто упоминается как концептуальное обучение.

Шаги

Для решения данной проблемы контролируемого обучения необходимо выполнить следующие шаги:

Определите тип обучающих примеров. Прежде чем делать что-либо еще, пользователь должен решить, какие данные будут использоваться в качестве обучающего набора. В случае анализ почерка, например, это может быть один рукописный символ, целое рукописное слово или целая строка рукописного ввода.
Соберите тренировочный набор. Обучающий набор должен отражать реальное использование функции. Таким образом, собирается набор входных объектов и соответствующие выходные данные, полученные либо от экспертов-людей, либо на основе измерений.
Определите входное представление функции изученной функции. Точность изученной функции сильно зависит от того, как представлен входной объект. Обычно входной объект преобразуется в вектор признаков, который содержит ряд функций, описывающих объект. Количество функций не должно быть слишком большим из-за проклятие размерности; но должен содержать достаточно информации, чтобы точно предсказать результат.
Определите структуру изученной функции и соответствующий алгоритм обучения. Например, инженер может использовать опорные векторные машины или же деревья решений.
Завершите дизайн. Запустите алгоритм обучения на собранной обучающей выборке. Некоторые алгоритмы обучения с учителем требуют от пользователя определения определенных параметров управления. Эти параметры можно настроить путем оптимизации производительности на подмножестве (называемом Проверка set) обучающей выборки или через перекрестная проверка.
Оцените точность усвоенной функции. После настройки параметров и обучения производительность результирующей функции должна быть измерена на тестовом наборе, отдельном от обучающего набора.

Выбор алгоритма

Доступен широкий спектр алгоритмов контролируемого обучения, каждый со своими сильными и слабыми сторонами. Не существует единого алгоритма обучения, который лучше всего работал бы со всеми задачами обучения с учителем (см. Теорема о бесплатном обеде ).

При обучении с учителем следует учитывать четыре основных вопроса:

Компромисс смещения и дисперсии

Первая проблема - это компромисс между предвзятость и отклонение.^[3] Представьте, что у нас есть несколько разных, но одинаково хороших наборов обучающих данных. Алгоритм обучения смещен для конкретного входа ${ displaystyle x}$ если при обучении на каждом из этих наборов данных он систематически неверен при прогнозировании правильного вывода для ${ displaystyle x}$ . Алгоритм обучения имеет высокую дисперсию для конкретного входа ${ displaystyle x}$ если он прогнозирует разные выходные значения при обучении на разных обучающих наборах. Ошибка предсказания изученного классификатора связана с суммой смещения и дисперсии алгоритма обучения.^[4] Как правило, существует компромисс между смещением и отклонением. Алгоритм обучения с низким смещением должен быть «гибким», чтобы он мог хорошо соответствовать данным. Но если алгоритм обучения слишком гибкий, он будет соответствовать каждому набору обучающих данных по-разному и, следовательно, будет иметь высокую дисперсию. Ключевым аспектом многих контролируемых методов обучения является то, что они могут регулировать этот компромисс между смещением и дисперсией (либо автоматически, либо путем предоставления параметра смещения / дисперсии, который может регулировать пользователь).

Сложность функции и количество обучающих данных

Вторая проблема - это количество доступных обучающих данных относительно сложности «истинной» функции (классификатора или функции регрессии). Если истинная функция проста, то «негибкий» алгоритм обучения с высоким смещением и низкой дисперсией сможет изучить ее на небольшом количестве данных. Но если истинная функция очень сложна (например, потому что она включает сложные взаимодействия между множеством различных входных функций и ведет себя по-разному в разных частях входного пространства), тогда функция сможет учиться только на очень большом количестве обучающих данных. и использование «гибкого» алгоритма обучения с низким смещением и высокой дисперсией. Между входом и желаемым выходом существует четкое разграничение.

Размерность входного пространства

Третья проблема - размерность входного пространства. Если входные векторы признаков имеют очень высокую размерность, проблема обучения может быть сложной, даже если истинная функция зависит только от небольшого числа этих функций. Это связано с тем, что множество «дополнительных» измерений могут сбить с толку алгоритм обучения и привести к его высокой дисперсии. Следовательно, высокая входная размерность обычно требует настройки классификатора, чтобы иметь низкую дисперсию и высокое смещение. На практике, если инженер может вручную удалить нерелевантные функции из входных данных, это, вероятно, повысит точность изученной функции. Кроме того, существует множество алгоритмов для выбор функции которые стремятся идентифицировать релевантные особенности и отбрасывать нерелевантные. Это пример более общей стратегии уменьшение размерности, который пытается отобразить входные данные в пространство меньшей размерности до запуска алгоритма контролируемого обучения.

Шум в выходных значениях

Четвертая проблема - это степень шума в желаемых выходных значениях (контрольный целевые переменные ). Если желаемые выходные значения часто неверны (из-за человеческой ошибки или ошибок датчика), то алгоритм обучения не должен пытаться найти функцию, которая точно соответствует обучающим примерам. Попытка слишком тщательно подогнать данные приводит к переоснащение. Вы можете переобучить, даже если нет ошибок измерения (стохастический шум), если функция, которую вы пытаетесь изучить, слишком сложна для вашей модели обучения. В такой ситуации часть целевой функции, которую невозможно смоделировать, «портит» ваши обучающие данные - это явление было названо детерминированный шум. Когда присутствует какой-либо тип шума, лучше использовать более высокую систематическую погрешность и более низкую оценку дисперсии.

На практике существует несколько подходов к уменьшению шума в выходных значениях, например: ранняя остановка предотвращать переоснащение а также обнаружение и удаление зашумленных обучающих примеров перед обучением алгоритма обучения с учителем. Существует несколько алгоритмов, которые идентифицируют зашумленные примеры обучения и удаляют предполагаемые зашумленные обучающие примеры перед обучением. ошибка обобщения с Статистическая значимость.^[5]^[6]

Другие факторы, которые следует учитывать

Другие факторы, которые следует учитывать при выборе и применении алгоритма обучения, включают следующее:

Неоднородность данных. Если векторы признаков включают в себя функции многих различных типов (дискретные, дискретно упорядоченные, подсчеты, непрерывные значения), некоторые алгоритмы применять легче, чем другие. Многие алгоритмы, в том числе Машины опорных векторов, линейная регрессия, логистическая регрессия, нейронные сети, и методы ближайшего соседа, требуют, чтобы входные характеристики были числовыми и масштабировались до аналогичных диапазонов (например, до интервала [-1,1]). Методы, использующие функцию расстояния, например методы ближайшего соседа и поддержка векторных машин с гауссовскими ядрами, особенно чувствительны к этому. Преимущество деревья решений в том, что они легко обрабатывают разнородные данные.
Избыточность данных. Если входные функции содержат избыточную информацию (например, сильно коррелированные функции), некоторые алгоритмы обучения (например, линейная регрессия, логистическая регрессия, и дистанционные методы ) будет плохо работать из-за численной нестабильности. Эти проблемы часто можно решить, применив некоторую форму регуляризация.
Наличие взаимодействий и нелинейностей. Если каждая из функций вносит независимый вклад в результат, то алгоритмы, основанные на линейных функциях (например, линейная регрессия, логистическая регрессия, Машины опорных векторов, наивный байесовский ) и функции расстояния (например, методы ближайшего соседа, поддержка векторных машин с гауссовскими ядрами ) в целом работают хорошо. Однако, если между функциями существует сложное взаимодействие, тогда такие алгоритмы, как деревья решений и нейронные сети работают лучше, потому что они специально разработаны для обнаружения этих взаимодействий. Также могут применяться линейные методы, но при их использовании инженер должен вручную указать взаимодействия.

При рассмотрении нового приложения инженер может сравнить несколько алгоритмов обучения и экспериментально определить, какой из них лучше всего работает с рассматриваемой проблемой (см. перекрестная проверка ). Настройка производительности алгоритма обучения может занять очень много времени. При фиксированных ресурсах часто лучше потратить больше времени на сбор дополнительных обучающих данных и более информативных функций, чем на настройку алгоритмов обучения.

Алгоритмы

Наиболее широко используемые алгоритмы обучения:

Как работают алгоритмы контролируемого обучения

Учитывая набор ${ displaystyle N}$ обучающие примеры формы ${ Displaystyle {(x_ {1}, y_ {1}), ..., (x_ {N}, ; y_ {N}) }}$ такой, что ${ displaystyle x_ {i}}$ это вектор признаков i-го примера и ${ displaystyle y_ {i}}$ - его метка (т. е. класс), алгоритм обучения ищет функцию ${ displaystyle g: X to Y}$ , куда ${ displaystyle X}$ это входное пространство и ${ displaystyle Y}$ это выходное пространство. Функция ${ displaystyle g}$ является элементом некоторого пространства возможных функций ${ displaystyle G}$ , обычно называемый пространство гипотез. Иногда удобно представлять ${ displaystyle g}$ с использованием функции оценки ${ displaystyle f: X times Y to mathbb {R}}$ такой, что ${ displaystyle g}$ определяется как возврат ${ displaystyle y}$ значение, дающее наивысший балл: ${ displaystyle g (x) = { underset {y} { arg max}} ; f (x, y)}$ . Позволять ${ displaystyle F}$ обозначают пространство оценочных функций.

Несмотря на то что ${ displaystyle G}$ и ${ displaystyle F}$ может быть любым пространством функций, многие алгоритмы обучения являются вероятностными моделями, где ${ displaystyle g}$ принимает форму условная возможность модель ${ Displaystyle г (х) = п (у | х)}$ , или же ${ displaystyle f}$ принимает форму совместная вероятность модель ${ Displaystyle е (х, у) = п (х, у)}$ . Например, наивный байесовский и линейный дискриминантный анализ являются совместными вероятностными моделями, тогда как логистическая регрессия модель условной вероятности.

Есть два основных подхода к выбору ${ displaystyle f}$ или же ${ displaystyle g}$ : минимизация эмпирического риска и минимизация структурных рисков.^[7] Минимизация эмпирического риска ищет функцию, которая лучше всего соответствует обучающим данным. Минимизация структурных рисков включает: штрафная функция который контролирует компромисс смещения / дисперсии.

В обоих случаях предполагается, что обучающая выборка состоит из выборки независимые и одинаково распределенные пары, ${ Displaystyle (х_ {я}, ; у_ {я})}$ . Чтобы измерить, насколько хорошо функция соответствует обучающим данным, функция потерь ${ displaystyle L: Y times Y to mathbb {R} ^ { geq 0}}$ определено. Для тренировочного примера ${ Displaystyle (х_ {я}, ; у_ {я})}$ , потеря предсказания значения ${ displaystyle { hat {y}}}$ является ${ Displaystyle L (у_ {я}, { шляпа {у}})}$ .

В рисковать ${ Displaystyle R (g)}$ функции ${ displaystyle g}$ определяется как ожидаемая потеря ${ displaystyle g}$ . Это можно оценить по данным обучения как

{ displaystyle R_ {emp} (g) = { frac {1} {N}} sum _ {i} L (y_ {i}, g (x_ {i}))}

.

Минимизация эмпирического риска

При минимизации эмпирического риска алгоритм обучения с учителем ищет функцию ${ displaystyle g}$ что сводит к минимуму ${ Displaystyle R (g)}$ . Следовательно, алгоритм обучения с учителем может быть построен путем применения алгоритм оптимизации найти ${ displaystyle g}$ .

Когда ${ displaystyle g}$ условное распределение вероятностей ${ Displaystyle Р (у | х)}$ а функция потерь - это отрицательная логарифмическая вероятность: ${ Displaystyle L (y, { шляпа {y}}) = - log P (y | x)}$ , то минимизация эмпирического риска эквивалентна оценка максимального правдоподобия.

Когда ${ displaystyle G}$ содержит много функций-кандидатов или обучающая выборка недостаточно велика, минимизация эмпирического риска приводит к высокой дисперсии и плохому обобщению. Алгоритм обучения способен запоминать обучающие примеры без хороших обобщений. Это называется переоснащение.

Минимизация структурных рисков

Минимизация структурных рисков стремится предотвратить переоснащение за счет включения штраф за регуляризацию в оптимизацию. Штраф за регуляризацию можно рассматривать как реализацию формы бритва Оккама который предпочитает более простые функции более сложным.

Применяются самые разные штрафы, соответствующие различным определениям сложности. Например, рассмотрим случай, когда функция ${ displaystyle g}$ является линейной функцией вида

{ Displaystyle г (х) = сумма _ {j = 1} ^ {d} beta _ {j} x_ {j}}

.

Популярный штраф за регуляризацию ${ displaystyle sum _ {j} beta _ {j} ^ {2}}$ , который является квадратом Евклидова норма весов, также известных как ${ displaystyle L_ {2}}$ норма. Другие нормы включают ${ displaystyle L_ {1}}$ норма, ${ displaystyle sum _ {j} | beta _ {j} |}$ , а ${ displaystyle L_ {0}}$ норма, то есть количество ненулевых ${ displaystyle beta _ {j}}$ с. Штраф будет обозначен ${ displaystyle C (g)}$ .

Задача оптимизации обучения с учителем состоит в том, чтобы найти функцию ${ displaystyle g}$ что сводит к минимуму

{ Displaystyle J (g) = R_ {emp} (g) + lambda C (g).}

Параметр ${ displaystyle lambda}$ контролирует компромисс смещения и дисперсии. Когда ${ displaystyle lambda = 0}$ , это дает минимизацию эмпирического риска с низким смещением и высокой дисперсией. Когда ${ displaystyle lambda}$ большой, алгоритм обучения будет иметь высокую систематическую ошибку и низкую дисперсию. Значение ${ displaystyle lambda}$ можно выбрать эмпирически через перекрестная проверка.

Штраф за сложность имеет байесовскую интерпретацию как отрицательная логарифмическая априорная вероятность ${ displaystyle g}$ , ${ displaystyle - log P (g)}$ , в таком случае ${ displaystyle J (g)}$ это апостериорная вероятность из ${ displaystyle g}$ .

Генеративное обучение

Описанные выше методы обучения: разборчивое обучение методы, потому что они стремятся найти функцию ${ displaystyle g}$ который хорошо различает различные выходные значения (см. дискриминационная модель ). Для особого случая, когда ${ Displaystyle е (х, у) = п (х, у)}$ это совместное распределение вероятностей а функция потерь - это отрицательное логарифмическое правдоподобие ${ displaystyle - sum _ {i} log P (x_ {i}, y_ {i}),}$ говорят, что алгоритм минимизации риска выполняет генеративное обучение, потому что ${ displaystyle f}$ можно рассматривать как генеративная модель это объясняет, как были созданы данные. Алгоритмы генеративного обучения часто проще и эффективнее с точки зрения вычислений, чем алгоритмы дискриминирующего обучения. В некоторых случаях решение может быть вычислено в закрытой форме, как в наивный байесовский и линейный дискриминантный анализ.

Обобщения

Существует несколько способов обобщения стандартной задачи контролируемого обучения:

Полу-контролируемое обучение: В этой настройке желаемые выходные значения предоставляются только для подмножества обучающих данных. Остальные данные не помечены.
Слабый надзор: В этой настройке используются источники шума, ограниченные или неточные источники для обеспечения сигнала контроля для маркировки данных обучения.
Активное изучение: Вместо того, чтобы предполагать, что все обучающие примеры даны в начале, активные алгоритмы обучения интерактивно собирают новые примеры, обычно путем выполнения запросов к пользователю-человеку. Часто запросы основаны на немаркированных данных, что представляет собой сценарий, сочетающий полу-контролируемое обучение с активным обучением.
Структурированный прогноз: Когда желаемое выходное значение представляет собой сложный объект, такой как дерево синтаксического анализа или помеченный граф, стандартные методы должны быть расширены.
Учимся ранжировать: Когда входные данные представляют собой набор объектов, а желаемый результат - ранжирование этих объектов, тогда стандартные методы должны быть расширены.

Подходы и алгоритмы

Аналитическое обучение
Искусственная нейронная сеть
Обратное распространение
Повышение (мета-алгоритм)
Байесовская статистика
Рассуждения на основе случая
Изучение дерева решений
Индуктивное логическое программирование
Регрессия гауссовского процесса
Генетическое программирование
Групповой метод обработки данных
Оценщики ядра
Обучающие автоматы
Системы обучающих классификаторов
Минимальная длина сообщения (деревья решений, графики решений и т. д.)
Мультилинейное подпространственное обучение
Наивный байесовский классификатор
Классификатор максимальной энтропии
Условное случайное поле
Алгоритм ближайшего соседа
Наверное, примерно правильное обучение (PAC) обучение
Правила Ripple Down, методика получения знаний
Символьные алгоритмы машинного обучения
Подсимволические алгоритмы машинного обучения
Опорные векторные машины
Машины минимальной сложности (MCM)
Случайные леса
Ансамбли классификаторов
Порядковая классификация
Предварительная обработка данных
Обработка несбалансированных наборов данных
Статистическое реляционное обучение
Proaftn, алгоритм многокритериальной классификации

Приложения

Биоинформатика
Хеминформатика
- Количественная структура - взаимосвязь деятельности
Маркетинг баз данных
Распознавание почерка
Поиск информации
- Учимся ранжировать
Извлечение информации
Распознавание объектов в компьютерное зрение
Оптическое распознавание символов
Обнаружение спама
Распознавание образов
Распознавание речи
Обучение с учителем - это особый случай Нисходящая причинность в биологических системах
Классификация рельефа с использованием Спутниковые снимки^[8]

Общие вопросы

Смотрите также

Список наборов данных для исследования машинного обучения

внешняя ссылка

Программное обеспечение с открытым исходным кодом для машинного обучения (MLOSS)

[1] Стюарт Дж. Рассел, Питер Норвиг (2010) Искусственный интеллект: современный подход, Третье издание, Прентис Холл ISBN 9780136042594.

[2] Мехриар Мохри, Афшин Ростамизаде, Амит Талвалкар (2012) Основы машинного обучения, MIT Press ISBN 9780262018258.

[3] С. Геман, Э. Биненшток и Р. Дурса (1992). Нейронные сети и дилемма смещения / дисперсии. Нейронные вычисления 4, 1–58.

[4] Дж. Джеймс (2003) Дисперсия и смещение для общих функций потерь, Машинное обучение 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf )

[5] К.Е. Бродели и М.А.Фридл (1999). Выявление и устранение неправильно маркированных учебных заведений, журнал исследований искусственного интеллекта 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf )

[6] М.Р. Смит и Т. Мартинес (2011). «Повышение точности классификации путем выявления и удаления экземпляров, которые должны быть неправильно классифицированы». Труды международной совместной конференции по нейронным сетям (IJCNN 2011). С. 2690–2697. CiteSeerX 10.1.1.221.1371. Дои:10.1109 / IJCNN.2011.6033571.

[7] Вапник, В. Природа статистической теории обучения (2-е изд.), Springer Verlag, 2000.

[8] А. Мэйти (2016). «Контролируемая классификация поляриметрических данных RADARSAT-2 для различных особенностей суши». arXiv:1608.00501 [cs.CV ].

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]