Мультиклассовая классификация - Википедия - Multiclass classification

В машинное обучение, мультикласс или же полиномиальная классификация это проблема классификация экземпляры в один из трех или более классов (классификация экземпляров в один из двух классов называется двоичная классификация ).

Хотя многие алгоритмы классификации (особенно полиномиальная логистическая регрессия ) естественно допускают использование более двух классов, некоторые по своей природе двоичный алгоритмы; однако их можно превратить в полиномиальные классификаторы с помощью различных стратегий.

Мультиклассовую классификацию не следует путать с классификация с несколькими этикетками, где для каждого экземпляра должно быть предсказано несколько меток.

Общие стратегии

Существующие методы многоклассовой классификации можно разделить на (i) преобразование в двоичную систему (ii) расширение из двоичной и (iii) иерархическую классификацию.[1]

Преобразование в двоичный

В этом разделе обсуждаются стратегии сведения проблемы многоклассовой классификации к множеству задач двоичной классификации. Его можно разделить на один против остальных и один против одного. Методы, разработанные на основе сведения проблемы нескольких классов к нескольким двоичным задачам, также можно назвать методами преобразования проблемы.

Один против остальных

Один против остальных[2]:182, 338 (OvR или один против всех, OvA или один против всех, OAA) включает обучение одного классификатора для каждого класса, при этом образцы этого класса считаются положительными, а все другие образцы - отрицательными. Эта стратегия требует, чтобы базовые классификаторы производили реальную оценку достоверности своего решения, а не просто метку класса; Одни только дискретные метки классов могут привести к неоднозначности, когда несколько классов прогнозируются для одной выборки.[3]:182[примечание 1]

В псевдокоде - алгоритм обучения учащегося OvR, построенный на основе учащегося двоичной классификации. L как следует:

Входы:
  • L, обучающийся (алгоритм обучения бинарных классификаторов)
  • образцы Икс
  • этикетки у куда уя ∈ {1, … K} - это метка для образца Икся
Выход:
  • список классификаторов жk за k ∈ {1, …, K}
Процедура:
  • Для каждого k в 1, …, K}
    • Создайте новый вектор метки z куда zя = уя если уя = k и zя = 0 иначе
    • Подать заявление L к Икс, z чтобы получить жk

Принятие решений означает применение всех классификаторов к невидимой выборке Икс и прогнозирование метки k для которого соответствующий классификатор сообщает наивысшую оценку достоверности:

Хотя эта стратегия популярна, она эвристический это страдает несколькими проблемами. Во-первых, шкала значений достоверности может различаться между бинарными классификаторами. Во-вторых, даже если распределение классов в обучающем наборе сбалансировано, учащиеся двоичной классификации видят несбалансированное распределение, потому что обычно набор отрицательных результатов, которые они видят, намного больше, чем набор положительных.[3]:338

Один против одного

в один против одного (OvO) сокращение, один поезд K (K − 1) / 2 бинарные классификаторы для K-ходовая мультиклассовая задача; каждый получает образцы пары классов из исходного обучающего набора и должен научиться различать эти два класса. Во время прогноза применяется схема голосования: все K (K − 1) / 2 Классификаторы применяются к невидимой выборке, и класс, получивший наибольшее количество прогнозов «+1», прогнозируется комбинированным классификатором.[3]:339

Как и OvR, OvO страдает двусмысленностями в том, что некоторые области его входного пространства могут получить одинаковое количество голосов.[3]:183

Расширение из двоичного файла

В этом разделе обсуждаются стратегии расширения существующих двоичных классификаторов для решения задач мультиклассовой классификации. Было разработано несколько алгоритмов на основе нейронные сети, деревья решений, k-ближайшие соседи, наивный байесовский, опорные векторные машины и экстремальные обучающие машины для решения проблем мультиклассовой классификации. Эти типы методов также можно назвать методами адаптации алгоритмов.

Нейронные сети

Мультиклассовые персептроны являются естественным продолжением мультиклассовой проблемы. Вместо того, чтобы иметь только один нейрон в выходном слое с двоичным выходом, можно было бы иметь N двоичных нейронов, что приведет к классификации нескольких классов. На практике последний слой нейронной сети обычно функция softmax слой, который представляет собой алгебраическое упрощение N логистических классификаторов, нормализованных для каждого класса суммой N-1 других логистических классификаторов.

Машины для экстремального обучения

Машины для экстремального обучения (ELM) - это частный случай нейронных сетей с прямой связью с одним скрытым слоем (SLFN), где входные веса и смещения скрытых узлов могут выбираться случайным образом. В ELM внесено множество вариантов и усовершенствований для мультиклассовой классификации.

k-ближайшие соседи

k-ближайшие соседи kNN считается одним из старейших алгоритмов непараметрической классификации. Чтобы классифицировать неизвестный пример, измеряется расстояние от этого примера до любого другого обучающего примера. Идентифицируются k наименьших расстояний, и класс, наиболее представленный этими k ближайшими соседями, считается меткой выходного класса.

Наивный байесовский

Наивный байесовский - успешный классификатор, основанный на принципе апостериорного максимума (МАП). Этот подход естественно расширяем для случая наличия более двух классов, и было показано, что он хорошо работает, несмотря на лежащее в основе упрощающее предположение о условная независимость.

Деревья решений

Изучение дерева решений это мощный метод классификации. Дерево пытается вывести разделение обучающих данных на основе значений доступных функций для получения хорошего обобщения. Алгоритм естественным образом справляется с задачами двоичной или многоклассовой классификации. Листовые узлы могут относиться к любому из рассматриваемых классов K.

Опорные векторные машины

Опорные векторные машины основаны на идее максимального увеличения запаса, то есть максимального минимального расстояния от разделяющей гиперплоскости до ближайшего примера. Базовая SVM поддерживает только двоичную классификацию, но были предложены расширения для обработки случая мультиклассовой классификации. В этих расширениях к проблеме оптимизации добавляются дополнительные параметры и ограничения, чтобы справиться с разделением различных классов.

Иерархическая классификация

Иерархическая классификация решает проблему мультиклассовой классификации путем разделения выходного пространства, т.е. дерево. Каждый родительский узел делится на несколько дочерних узлов, и процесс продолжается до тех пор, пока каждый дочерний узел не представляет только один класс. Было предложено несколько методов, основанных на иерархической классификации.

Парадигмы обучения

На основе парадигм обучения существующие методы многоклассовой классификации можно разделить на пакетное обучение и онлайн обучение. Алгоритмы пакетного обучения требуют, чтобы все образцы данных были доступны заранее. Он обучает модель, используя все обучающие данные, а затем прогнозирует тестовую выборку, используя найденную связь. Алгоритмы онлайн-обучения, с другой стороны, постепенно строят свои модели в последовательных итерациях. На итерации t онлайн-алгоритм получает выборку xт и предсказывает его метку ŷт используя текущую модель; затем алгоритм получает yт, истинная метка xт и обновляет свою модель на основе пары образец-метка: (xт, yт). Недавно была разработана новая парадигма обучения, называемая прогрессивной техникой обучения.[4] Методика прогрессивного обучения способна не только учиться на новых образцах, но также способна изучать новые классы данных, сохраняя при этом полученные знания.[5]

Смотрите также

Примечания

  1. ^ В классификация с несколькими этикетками, OvR известен как бинарная релевантность а прогнозирование нескольких классов считается функцией, а не проблемой.

Рекомендации

  1. ^ Мохамед, Али (2005). «Обзор методов мультиклассовой классификации» (PDF). Технический отчет, Калтех.
  2. ^ Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение. Springer.
  3. ^ а б c d Епископ, Кристофер М. (2006). Распознавание образов и машинное обучение. Springer.
  4. ^ Венкатесан, Раджасекар; Мэн Джу, Эр (2016). «Новый прогрессивный метод обучения для классификации нескольких классов». Нейрокомпьютинг. 207: 310–321. arXiv:1609.00085. Дои:10.1016 / j.neucom.2016.05.006.
  5. ^ Венкатесан, Раджасекар. «Прогрессивная техника обучения».