Классификатор маржи - Margin classifier

В машинное обучение, а классификатор маржи это классификатор который может дать соответствующее расстояние от границы решения для каждого примера. Например, если линейный классификатор (например. перцептрон или же линейный дискриминантный анализ ) используется расстояние (обычно Евклидово расстояние (хотя могут быть использованы и другие) примера из разделяющей гиперплоскости является полем этого примера.

Понятие маржи важно в нескольких алгоритмах классификации машинного обучения, так как его можно использовать для ограничения ошибка обобщения классификатора. Эти границы часто отображаются с помощью Размер ВК. Особо выделяется обобщение граница ошибки на повышение алгоритмы и опорные векторные машины.

Поддержка определения вектора машина края

Видеть опорные векторные машины и гиперплоскость с максимальным запасом для подробностей.

Маржа для алгоритмов повышения

Запас для итеративного повышение Алгоритм с учетом набора примеров с двумя классами можно определить следующим образом. Классификатору дается пример пары куда это доменное пространство и это метка примера. Затем алгоритм итеративного повышения выбирает классификатор. на каждой итерации куда это пространство возможных классификаторов, которые предсказывают реальные значения. Эта гипотеза затем взвешивается как выбрано алгоритмом повышения. На итерации , край примера таким образом можно определить как

Согласно этому определению маржа положительная, если образец помечен правильно, и отрицательная, если образец помечен неправильно.

Это определение может быть изменено, и это не единственный способ определить маржу для алгоритмов повышения. Однако есть причины, по которым это определение может быть привлекательным.[1]

Примеры маржинальных алгоритмов

Многие классификаторы могут дать соответствующий запас для каждого примера. Однако только некоторые классификаторы используют информацию о марже при обучении на основе набора данных.

Многие алгоритмы бустинга полагаются на понятие запаса, чтобы придать вес примерам. Если используются выпуклые потери (как в AdaBoost, LogitBoost, и все члены AnyBoost семейство алгоритмов), то пример с более высокой маржой получит меньший (или равный) вес, чем пример с более низкой маржой. Это приводит к тому, что алгоритм повышения фокусируется на примерах с низкой маржой. В невыпуклых алгоритмах (например, BrownBoost ), маржа по-прежнему определяет вес примера, хотя весовой коэффициент не является монотонным по отношению к марже. Существуют алгоритмы повышения, которые доказуемо максимизируют минимальную маржу (например, см. [2]).

Опорные векторные машины доказуемо максимизировать запас разделяющей гиперплоскости. Машины опорных векторов, которые обучаются с использованием зашумленных данных (идеального разделения данных в заданном пространстве не существует), максимизируют мягкий запас. Более подробное обсуждение этого можно найти в Машина опорных векторов статья.

В проголосовавший перцептрон алгоритм - это алгоритм максимизации маржи, основанный на итеративном применении классического перцептрон алгоритм.

Границы ошибки обобщения

Одна теоретическая мотивация классификаторов маржи заключается в том, что их ошибка обобщения могут быть связаны параметрами алгоритма и сроком маржи. Пример такой границы - для алгоритма AdaBoost.[1] Позволять быть набором примеры, выбранные независимо, случайным образом из распределения . Предположим, что VC-измерение базового классификатора равно и . Тогда с вероятностью мы связаны

для всех .

Рекомендации

  1. ^ а б Роберт Э. Шапир, Йоав Фройнд, Питер Бартлетт и Ви Сан Ли. (1998) "Повышение маржи: новое объяснение эффективности методов голосования ", Анналы статистики, 26(5):1651–1686
  2. ^ Манфред Вармут, Карен Глосер и Гуннар Рэтч. Алгоритмы повышения для максимизации мягкой маржи. В Proceedings of Advances in Neural Processing Systems 20, 2007, pp 1585–1592.