Линейный классификатор - Linear classifier

В области машинное обучение, цель статистическая классификация заключается в использовании характеристик объекта для определения того, к какому классу (или группе) он принадлежит. А линейный классификатор достигает этого путем принятия решения о классификации на основе значения линейная комбинация характеристик. Характеристики объекта также известны как значения характеристик и обычно представляются машине в векторе, называемом вектор признаков. Такие классификаторы хорошо подходят для практических задач, таких как классификация документов, и в более общем плане для задач со многими переменными (Особенности ), достигая уровней точности, сравнимых с нелинейными классификаторами, при меньшем времени на обучение и использование.[1]

Определение

В этом случае сплошные и пустые точки можно правильно классифицировать любым количеством линейных классификаторов. H1 (синий) классифицирует их правильно, как и H2 (красный). H2 можно считать «лучше» в том смысле, что он наиболее удален от обеих групп. H3 (зеленый) не может правильно классифицировать точки.

Если входным вектором признаков для классификатора является настоящий вектор , то результат будет

куда - действительный вектор весов и ж - функция, преобразующая скалярное произведение из двух векторов в желаемый результат. (Другими словами, это однотипный или же линейный функционал отображение на р.) Весовой вектор обучается из набора помеченных обучающих выборок. Часто ж это пороговая функция, который отображает все значения выше определенного порога для первого класса и всех остальных значений для второго класса; например.,

Более сложный ж может дать вероятность того, что предмет принадлежит определенному классу.

Для задачи классификации с двумя классами можно представить себе работу линейного классификатора как разделение многомерный входное пространство с гиперплоскость: все точки на одной стороне гиперплоскости классифицируются как «да», а другие - как «нет».

Линейный классификатор часто используется в ситуациях, когда скорость классификации является проблемой, поскольку это часто самый быстрый классификатор, особенно когда редко. Кроме того, линейные классификаторы часто работают очень хорошо, когда количество измерений в большой, как в классификация документов, где каждый элемент в обычно это количество вхождений слова в документ (см. матрица документов-терминов ). В таких случаях классификатор должен быть хорошоупорядоченный.

Генеративные модели против дискриминационных моделей

Существует два широких класса методов определения параметров линейного классификатора. . Они могут быть генеративный и отличительный модели.[2][3] Методы первоклассной модели условные функции плотности . Примеры таких алгоритмов включают:

Второй набор методов включает дискриминационные модели, которые пытаются максимизировать качество вывода на Обучающий набор. Дополнительные термины в функции стоимости обучения могут легко выполнить регуляризация финальной модели. Примеры дискриминирующего обучения линейных классификаторов включают:

  • Логистическая регрессия - оценка максимального правдоподобия предполагая, что наблюдаемый обучающий набор был сгенерирован биномиальной моделью, которая зависит от выходных данных классификатора.
  • Перцептрон - алгоритм, который пытается исправить все ошибки, обнаруженные в обучающем наборе.
  • Линейный дискриминантный анализ Фишера - алгоритм (отличный от LDA), который максимизирует отношение разброса между классами к разбросу внутри класса без каких-либо других предположений. По сути, это метод уменьшения размерности для двоичной классификации. [4]
  • Машина опорных векторов - алгоритм, который максимизирует поле между гиперплоскостью решений и примерами в обучающей выборке.

Примечание: Несмотря на свое название, LDA не принадлежит к классу дискриминационных моделей в этой таксономии. Однако его название имеет смысл, когда мы сравниваем LDA с другими основными линейными уменьшение размерности алгоритм: анализ основных компонентов (СПС). LDA - это контролируемое обучение алгоритм, который использует метки данных, в то время как PCA является обучение без учителя алгоритм, игнорирующий метки. Подводя итог, название - исторический артефакт.[5]:117

Дискриминационное обучение часто дает более высокую точность, чем моделирование функций условной плотности.[нужна цитата ]. Однако с моделями условной плотности часто проще обрабатывать недостающие данные.[нужна цитата ].

Все алгоритмы линейного классификатора, перечисленные выше, могут быть преобразованы в нелинейные алгоритмы, работающие в другом пространстве ввода. , с использованием трюк с ядром.

Дискриминационное обучение

Дискриминационное обучение линейных классификаторов обычно происходит в под наблюдением Кстати, с помощью алгоритм оптимизации дается обучающий набор с желаемыми выходами и функция потерь который измеряет несоответствие между выходными данными классификатора и желаемыми выходными данными. Таким образом, алгоритм обучения решает задачу оптимизации вида[1]

куда

  • ш - вектор параметров классификатора,
  • L(уя, шТИкся) - функция потерь, которая измеряет расхождение между предсказанием классификатора и истинным выходом уя для яобучающий пример,
  • р(ш) это регуляризация функция, которая предотвращает слишком большие параметры (вызывая переоснащение ), и
  • C - скалярная константа (устанавливается пользователем алгоритма обучения), которая контролирует баланс между регуляризацией и функцией потерь.

Популярные функции потерь включают потеря петли (для линейных SVM) и потеря журнала (для линейной логистической регрессии). Если функция регуляризации р является выпуклый, то это выпуклая задача.[1] Существует множество алгоритмов для решения таких проблем; популярные для линейной классификации включают (стохастический ) градиентный спуск, L-BFGS, координатный спуск и Методы Ньютона.

Смотрите также

Примечания

  1. ^ а б c Го-Сюнь Юань; Чиа-Хуа Хо; Чи-Джен Линь (2012). «Последние достижения крупномасштабной линейной классификации» (PDF). Proc. IEEE. 100 (9).
  2. ^ Т. Митчелл, Генеративные и дискриминативные классификаторы: наивный байесовский анализ и логистическая регрессия. Черновая версия, 2005 г.
  3. ^ А. Я. Нг и М. И. Джордан. Дискриминационные и генеративные классификаторы: сравнение логистической регрессии и наивного Байеса. в НИПС 14, 2002.
  4. ^ Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN  0-471-05669-3
  5. ^ Р.О. Дуда, П.Е. Харт, Д. Аист, "Классификация паттернов", Wiley, (2001). ISBN  0-471-05669-3

дальнейшее чтение

  1. Y. Yang, X. Liu, "Пересмотр категоризации текста", Proc. Конференция ACM SIGIR, стр. 42–49, (1999). бумага @ citeseer
  2. Р. Хербрих, "Обучающиеся классификаторы ядра: теория и алгоритмы", MIT Press, (2001). ISBN  0-262-08306-X