Классификатор маржи - Margin classifier

В машинное обучение, а классификатор маржи это классификатор который может дать соответствующее расстояние от границы решения для каждого примера. Например, если линейный классификатор (например. перцептрон или же линейный дискриминантный анализ ) используется расстояние (обычно Евклидово расстояние (хотя могут быть использованы и другие) примера из разделяющей гиперплоскости является полем этого примера.

Понятие маржи важно в нескольких алгоритмах классификации машинного обучения, так как его можно использовать для ограничения ошибка обобщения классификатора. Эти границы часто отображаются с помощью Размер ВК. Особо выделяется обобщение граница ошибки на повышение алгоритмы и опорные векторные машины.

Поддержка определения вектора машина края

Видеть опорные векторные машины и гиперплоскость с максимальным запасом для подробностей.

Маржа для алгоритмов повышения

Запас для итеративного повышение Алгоритм с учетом набора примеров с двумя классами можно определить следующим образом. Классификатору дается пример пары ${ Displaystyle (х, у)}$ куда ${ displaystyle x in X}$ это доменное пространство и ${ Displaystyle у в Y = {- 1, + 1 }}$ это метка примера. Затем алгоритм итеративного повышения выбирает классификатор. ${ displaystyle h_ {j} in C}$ на каждой итерации ${ displaystyle j}$ куда ${ displaystyle C}$ это пространство возможных классификаторов, которые предсказывают реальные значения. Эта гипотеза затем взвешивается ${ displaystyle alpha _ {j} in R}$ как выбрано алгоритмом повышения. На итерации ${ displaystyle t}$ , край примера ${ displaystyle x}$ таким образом можно определить как

{ displaystyle { frac {y sum _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { sum | alpha _ {j} |}}.}

Согласно этому определению маржа положительная, если образец помечен правильно, и отрицательная, если образец помечен неправильно.

Это определение может быть изменено, и это не единственный способ определить маржу для алгоритмов повышения. Однако есть причины, по которым это определение может быть привлекательным.^[1]

Примеры маржинальных алгоритмов

Многие классификаторы могут дать соответствующий запас для каждого примера. Однако только некоторые классификаторы используют информацию о марже при обучении на основе набора данных.

Многие алгоритмы бустинга полагаются на понятие запаса, чтобы придать вес примерам. Если используются выпуклые потери (как в AdaBoost, LogitBoost, и все члены AnyBoost семейство алгоритмов), то пример с более высокой маржой получит меньший (или равный) вес, чем пример с более низкой маржой. Это приводит к тому, что алгоритм повышения фокусируется на примерах с низкой маржой. В невыпуклых алгоритмах (например, BrownBoost ), маржа по-прежнему определяет вес примера, хотя весовой коэффициент не является монотонным по отношению к марже. Существуют алгоритмы повышения, которые доказуемо максимизируют минимальную маржу (например, см. ^[2]).

Опорные векторные машины доказуемо максимизировать запас разделяющей гиперплоскости. Машины опорных векторов, которые обучаются с использованием зашумленных данных (идеального разделения данных в заданном пространстве не существует), максимизируют мягкий запас. Более подробное обсуждение этого можно найти в Машина опорных векторов статья.

В проголосовавший перцептрон алгоритм - это алгоритм максимизации маржи, основанный на итеративном применении классического перцептрон алгоритм.

Границы ошибки обобщения

Одна теоретическая мотивация классификаторов маржи заключается в том, что их ошибка обобщения могут быть связаны параметрами алгоритма и сроком маржи. Пример такой границы - для алгоритма AdaBoost.^[1] Позволять ${ displaystyle S}$ быть набором ${ displaystyle m}$ примеры, выбранные независимо, случайным образом из распределения ${ displaystyle D}$ . Предположим, что VC-измерение базового классификатора равно ${ displaystyle d}$ и ${ Displaystyle м geq d geq 1}$ . Тогда с вероятностью ${ displaystyle 1- delta}$ мы связаны

{ displaystyle P_ {D} left ({ frac {y sum _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { sum | alpha _ {j} | }} leq 0 right) leq P_ {S} left ({ frac {y sum _ {j} ^ {t} alpha _ {j} h_ {j} (x)} { sum | alpha _ {j} |}} leq theta right) + O left ({ frac {1} { sqrt {m}}} { sqrt {d log ^ {2} (м / д ) / theta ^ {2} + log (1 / delta)}} right)}

для всех ${ displaystyle theta> 0}$ .

Классификатор маржи - Margin classifier

Содержание

Поддержка определения вектора машина края

Маржа для алгоритмов повышения

Примеры маржинальных алгоритмов

Границы ошибки обобщения

Рекомендации