Линейный классификатор - Linear classifier

В области машинное обучение, цель статистическая классификация заключается в использовании характеристик объекта для определения того, к какому классу (или группе) он принадлежит. А линейный классификатор достигает этого путем принятия решения о классификации на основе значения линейная комбинация характеристик. Характеристики объекта также известны как значения характеристик и обычно представляются машине в векторе, называемом вектор признаков. Такие классификаторы хорошо подходят для практических задач, таких как классификация документов, и в более общем плане для задач со многими переменными (Особенности ), достигая уровней точности, сравнимых с нелинейными классификаторами, при меньшем времени на обучение и использование.^[1]

Определение

В этом случае сплошные и пустые точки можно правильно классифицировать любым количеством линейных классификаторов. H1 (синий) классифицирует их правильно, как и H2 (красный). H2 можно считать «лучше» в том смысле, что он наиболее удален от обеих групп. H3 (зеленый) не может правильно классифицировать точки.

Если входным вектором признаков для классификатора является настоящий вектор ${ displaystyle { vec {x}}}$ , то результат будет

{ displaystyle y = f ({ vec {w}} cdot { vec {x}}) = f left ( sum _ {j} w_ {j} x_ {j} right),}

куда ${ displaystyle { vec {w}}}$ - действительный вектор весов и ж - функция, преобразующая скалярное произведение из двух векторов в желаемый результат. (Другими словами, ${ displaystyle { vec {w}}}$ это однотипный или же линейный функционал отображение ${ displaystyle { vec {x}}}$ на р.) Весовой вектор ${ displaystyle { vec {w}}}$ обучается из набора помеченных обучающих выборок. Часто ж это пороговая функция, который отображает все значения ${ displaystyle { vec {w}} cdot { vec {x}}}$ выше определенного порога для первого класса и всех остальных значений для второго класса; например.,

{ displaystyle f ( mathbf {x}) = { begin {cases} 1 & { text {if}} mathbf {w} cdot mathbf {x}> T, 0 & { text {иначе }} end {case}}}

Более сложный ж может дать вероятность того, что предмет принадлежит определенному классу.

Для задачи классификации с двумя классами можно представить себе работу линейного классификатора как разделение многомерный входное пространство с гиперплоскость: все точки на одной стороне гиперплоскости классифицируются как «да», а другие - как «нет».

Линейный классификатор часто используется в ситуациях, когда скорость классификации является проблемой, поскольку это часто самый быстрый классификатор, особенно когда ${ displaystyle { vec {x}}}$ редко. Кроме того, линейные классификаторы часто работают очень хорошо, когда количество измерений в ${ displaystyle { vec {x}}}$ большой, как в классификация документов, где каждый элемент в ${ displaystyle { vec {x}}}$ обычно это количество вхождений слова в документ (см. матрица документов-терминов ). В таких случаях классификатор должен быть хорошоупорядоченный.

Генеративные модели против дискриминационных моделей

Существует два широких класса методов определения параметров линейного классификатора. ${ displaystyle { vec {w}}}$ . Они могут быть генеративный и отличительный модели.^[2]^[3] Методы первоклассной модели условные функции плотности ${ Displaystyle P ({ vec {x}} | { rm {class}})}$ . Примеры таких алгоритмов включают:

Линейный дискриминантный анализ (LDA) - предполагает Гауссовский модели условной плотности
Наивный байесовский классификатор с полиномиальными или многомерными моделями событий Бернулли.

Второй набор методов включает дискриминационные модели, которые пытаются максимизировать качество вывода на Обучающий набор. Дополнительные термины в функции стоимости обучения могут легко выполнить регуляризация финальной модели. Примеры дискриминирующего обучения линейных классификаторов включают:

Логистическая регрессия - оценка максимального правдоподобия ${ displaystyle { vec {w}}}$ предполагая, что наблюдаемый обучающий набор был сгенерирован биномиальной моделью, которая зависит от выходных данных классификатора.
Перцептрон - алгоритм, который пытается исправить все ошибки, обнаруженные в обучающем наборе.
Линейный дискриминантный анализ Фишера - алгоритм (отличный от LDA), который максимизирует отношение разброса между классами к разбросу внутри класса без каких-либо других предположений. По сути, это метод уменьшения размерности для двоичной классификации. ^[4]
Машина опорных векторов - алгоритм, который максимизирует поле между гиперплоскостью решений и примерами в обучающей выборке.

Примечание: Несмотря на свое название, LDA не принадлежит к классу дискриминационных моделей в этой таксономии. Однако его название имеет смысл, когда мы сравниваем LDA с другими основными линейными уменьшение размерности алгоритм: анализ основных компонентов (СПС). LDA - это контролируемое обучение алгоритм, который использует метки данных, в то время как PCA является обучение без учителя алгоритм, игнорирующий метки. Подводя итог, название - исторический артефакт.^[5]^:117

Дискриминационное обучение часто дает более высокую точность, чем моделирование функций условной плотности.^{[нужна цитата ]}. Однако с моделями условной плотности часто проще обрабатывать недостающие данные.^{[нужна цитата ]}.

Все алгоритмы линейного классификатора, перечисленные выше, могут быть преобразованы в нелинейные алгоритмы, работающие в другом пространстве ввода. ${ displaystyle varphi ({ vec {x}})}$ , с использованием трюк с ядром.

Дискриминационное обучение

Дискриминационное обучение линейных классификаторов обычно происходит в под наблюдением Кстати, с помощью алгоритм оптимизации дается обучающий набор с желаемыми выходами и функция потерь который измеряет несоответствие между выходными данными классификатора и желаемыми выходными данными. Таким образом, алгоритм обучения решает задачу оптимизации вида^[1]

{ displaystyle { underset { mathbf {w}} { arg min}} ; R ( mathbf {w}) + C sum _ {i = 1} ^ {N} L (y_ {i} , mathbf {w} ^ { mathsf {T}} mathbf {x} _ {i})}

куда

$ш$ - вектор параметров классификатора,
$L (у я, ш Т Икс я)$ - функция потерь, которая измеряет расхождение между предсказанием классификатора и истинным выходом $у я$ для $я$ обучающий пример,
$р (ш)$ это регуляризация функция, которая предотвращает слишком большие параметры (вызывая переоснащение ), и
$C$ - скалярная константа (устанавливается пользователем алгоритма обучения), которая контролирует баланс между регуляризацией и функцией потерь.

Популярные функции потерь включают потеря петли (для линейных SVM) и потеря журнала (для линейной логистической регрессии). Если функция регуляризации $р$ является выпуклый, то это выпуклая задача.^[1] Существует множество алгоритмов для решения таких проблем; популярные для линейной классификации включают (стохастический ) градиентный спуск, L-BFGS, координатный спуск и Методы Ньютона.

Смотрите также

Примечания

^ ^а ^б ^c Го-Сюнь Юань; Чиа-Хуа Хо; Чи-Джен Линь (2012). «Последние достижения крупномасштабной линейной классификации» (PDF). Proc. IEEE. 100 (9).
^ Т. Митчелл, Генеративные и дискриминативные классификаторы: наивный байесовский анализ и логистическая регрессия. Черновая версия, 2005 г.
^ А. Я. Нг и М. И. Джордан. Дискриминационные и генеративные классификаторы: сравнение логистической регрессии и наивного Байеса. в НИПС 14, 2002.
^ Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN 0-471-05669-3
^ Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN 0-471-05669-3

дальнейшее чтение

Y. Yang, X. Liu, "Пересмотр категоризации текста", Proc. Конференция ACM SIGIR, стр. 42–49, (1999). бумага @ citeseer
Р. Хербрих, "Обучающиеся классификаторы ядра: теория и алгоритмы", MIT Press, (2001). ISBN 0-262-08306-X

[ieee-1] а ^б ^c Го-Сюнь Юань; Чиа-Хуа Хо; Чи-Джен Линь (2012). «Последние достижения крупномасштабной линейной классификации» (PDF). Proc. IEEE. 100 (9).

[2] Т. Митчелл, Генеративные и дискриминативные классификаторы: наивный байесовский анализ и логистическая регрессия. Черновая версия, 2005 г.

[3] А. Я. Нг и М. И. Джордан. Дискриминационные и генеративные классификаторы: сравнение логистической регрессии и наивного Байеса. в НИПС 14, 2002.

[4] Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN 0-471-05669-3

[5] Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN 0-471-05669-3

[1]

[2]

[3]

[4]

[5]