Статистическая классификация - Statistical classification

В статистика, классификация проблема определения того, к какому из набора категории (субпопуляции) новый наблюдение принадлежит, на основании Обучающий набор данных, содержащих наблюдения (или экземпляры), принадлежность к категории которых известна. Примеры: назначение данного адреса электронной почты «спам» или «не спам» класс и постановка диагноза данному пациенту на основании наблюдаемых характеристик пациента (пол, артериальное давление, наличие или отсутствие определенных симптомов и т. д.). Классификация - это пример распознавание образов.

В терминологии машинного обучения[1] классификация считается примером контролируемое обучение, т.е. обучение, при котором доступен обучающий набор правильно идентифицированных наблюдений. Соответствующие без присмотра процедура известна как кластеризация, и включает в себя группировку данных по категориям на основе некоторой меры присущего сходства или расстояние.

Часто отдельные наблюдения анализируются в виде набора количественных свойств, известных как объясняющие переменные или Особенности. Эти свойства могут быть по-разному категоричный (например, "A", "B", "AB" или "O" для группа крови ), порядковый (например, «большой», «средний» или «маленький»), целочисленный (например, количество вхождений определенного слова в Эл. адрес ) или ценный (например, измерение артериальное давление ). Другие классификаторы работают, сравнивая наблюдения с предыдущими наблюдениями с помощью сходство или расстояние функция.

An алгоритм который реализует классификацию, особенно в конкретной реализации, известен как классификатор. Термин «классификатор» иногда также относится к математическим функция, реализованный алгоритмом классификации, который отображает входные данные в категорию.

Терминология в разных областях весьма разнообразна. В статистика, где классификация часто выполняется с логистическая регрессия или подобная процедура, свойства наблюдений называются объясняющие переменные (или независимые переменные, регрессоры и т. д.), а прогнозируемые категории известны как результаты, которые считаются возможными значениями зависимая переменная. В машинное обучение, наблюдения часто называют экземпляры, объясняющие переменные называются Особенности (сгруппированы в вектор признаков ), и возможные категории, которые необходимо предсказать: классы. В других полях может использоваться другая терминология: например, в общественная экология термин «классификация» обычно относится к кластерный анализ, т.е. разновидность обучение без учителя, а не контролируемое обучение, описанное в этой статье.

Отношение к другим проблемам

Классификация и кластеризация являются примерами более общей проблемы распознавание образов, который является присвоением некоторого выходного значения заданному входному значению. Другие примеры: регресс, который присваивает выход с действительным знаком каждому входу; маркировка последовательности, который присваивает класс каждому члену последовательности значений (например, часть тегов речи, который присваивает часть речи к каждому слову входного предложения); разбор, который присваивает дерево синтаксического анализа во входное предложение, описывающее синтаксическая структура приговора; и т.п.

Общий подкласс классификации: вероятностная классификация. Алгоритмы такого рода использования статистические выводы чтобы найти лучший класс для данного экземпляра. В отличие от других алгоритмов, которые просто выводят «лучший» класс, вероятностные алгоритмы выводят вероятность экземпляра, являющегося членом каждого из возможных классов. Затем обычно выбирается лучший класс как наиболее вероятный. Однако у такого алгоритма есть ряд преимуществ перед не вероятностными классификаторами:

  • Он может выводить значение достоверности, связанное с его выбором (в общем, классификатор, который может это сделать, известен как классификатор, взвешенный по достоверности).
  • Соответственно, может воздерживаться когда его уверенность в выборе того или иного выхода слишком мала.
  • Из-за генерируемых вероятностей вероятностные классификаторы могут быть более эффективно включены в более крупные задачи машинного обучения таким образом, чтобы частично или полностью избежать проблемы распространение ошибки.

Частые процедуры

Ранняя работа по статистической классификации была проведена Фишер,[2][3] в контексте двухгрупповых задач, приводящих к Линейный дискриминант Фишера функционируют как правило для назначения группы новому наблюдению.[4] В этой ранней работе предполагалось, что значения данных в каждой из двух групп имеют многомерное нормальное распределение. Расширение этого же контекста на более чем две группы также рассматривалось с ограничением, наложенным на правило классификации. линейный.[4][5] Более поздняя работа над многомерным нормальным распределением позволила классификатору быть нелинейный:[6] несколько правил классификации могут быть выведены на основе различных корректировок Расстояние Махаланобиса, при этом новое наблюдение назначается группе, центр которой имеет наименьшее скорректированное расстояние от наблюдения.

Байесовские процедуры

В отличие от частотных процедур, процедуры байесовской классификации обеспечивают естественный способ учета любой доступной информации об относительных размерах различных групп в общей популяции.[7] Байесовские процедуры имеют тенденцию быть дорогостоящими в вычислительном отношении, и в предыдущие дни Цепь Маркова Монте-Карло проведены вычисления, разработаны аппроксимации для правил байесовской кластеризации.[8]

Некоторые байесовские процедуры включают вычисление вероятности членства в группе: они обеспечивают более информативный результат, чем простое приписывание одного группового ярлыка каждому новому наблюдению.

Бинарная и мультиклассовая классификация

Классификацию можно рассматривать как две отдельные проблемы: двоичная классификация и мультиклассовая классификация. В бинарной классификации, более понятной задаче, участвуют только два класса, тогда как мультиклассовая классификация включает отнесение объекта к одному из нескольких классов.[9] Поскольку многие методы классификации были разработаны специально для двоичной классификации, многоклассовая классификация часто требует комбинированного использования нескольких двоичных классификаторов.

Векторы признаков

Большинство алгоритмов описывают отдельный экземпляр, категория которого должна быть предсказана с использованием вектор признаков индивидуальных, измеримых свойств экземпляра. Каждое свойство называется особенность, также известный в статистике как объясняющая переменная (или независимая переменная, хотя функции могут быть или не быть статистически независимый ). Возможности могут быть разными двоичный (например, «включено» или «выключено»); категоричный (например, "A", "B", "AB" или "O" для группа крови ); порядковый (например, «большой», «средний» или «маленький»); целочисленный (например, количество вхождений определенного слова в электронном письме); или ценный (например, измерение артериального давления). Если экземпляр является изображением, значения функции могут соответствовать пикселям изображения; если экземпляр - это кусок текста, значения признаков могут быть частотами появления разных слов. Некоторые алгоритмы работают только с дискретными данными и требуют, чтобы данные с действительными или целыми значениями были дискретизированный на группы (например, менее 5, от 5 до 10 или более 10).

Линейные классификаторы

Большое число алгоритмы для классификации можно сформулировать в терминах линейная функция который присваивает балл каждой возможной категории k от объединение вектор признаков экземпляра с вектором весов, используя скалярное произведение. Прогнозируемая категория - это категория с наивысшим баллом. Этот тип функции оценки известен как функция линейного предиктора и имеет следующий общий вид:

где Икся это вектор признаков, например я, βk - вектор весов, соответствующий категории k, и оценка (Икся, k) - оценка, связанная с присвоением экземпляра я в категорию k. В дискретный выбор теория, где экземпляры представляют людей, а категории представляют выбор, оценка считается полезность связанный с человеком я выбор категории k.

Алгоритмы с этой базовой настройкой известны как линейные классификаторы. Их отличает процедура определения (обучения) оптимальных весов / коэффициентов и способ интерпретации оценки.

Примеры таких алгоритмов:

Алгоритмы

В обучение без учителя, классификаторы составляют основу кластерного анализа и в под наблюдением или полу-контролируемого обучения, классификаторы - это то, как система характеризует и оценивает немаркированные данные. Тем не менее, во всех случаях классификаторы имеют определенный набор динамических правил, который включает процедуру интерпретации для обработки неопределенных или неизвестных значений, адаптированных к типу исследуемых входных данных.[10]

Поскольку ни одна форма классификации не подходит для всех наборов данных, был разработан большой набор алгоритмов классификации. К наиболее часто используемым относятся:[11]

Оценка

Производительность классификатора во многом зависит от характеристик классифицируемых данных. Не существует единого классификатора, который лучше всего работал бы со всеми заданными проблемами (феномен, который можно объяснить теорема без бесплатного обеда ). Были проведены различные эмпирические тесты для сравнения производительности классификатора и определения характеристик данных, которые определяют производительность классификатора. Однако определение подходящего классификатора для данной проблемы - это все же больше искусство, чем наука.

Меры точность и отзыв - популярные метрики, используемые для оценки качества системы классификации. В последнее время, рабочая характеристика приемника (ROC) кривые были использованы для оценки компромисса между истинно и ложноположительными показателями алгоритмов классификации.

В качестве показателя производительности коэффициент неопределенности имеет преимущество перед простым точность в том, что на него не влияют относительные размеры различных классов.[12]Кроме того, это не наказывает алгоритм просто за перестановка классы.

Домены приложений

Классификация имеет множество приложений. В некоторых из них он используется как сбор данных процедура, в то время как в других проводится более подробное статистическое моделирование.

Смотрите также

использованная литература

  1. ^ Алпайдин, Этхем (2010). Введение в машинное обучение. MIT Press. п. 9. ISBN  978-0-262-01243-0.
  2. ^ Фишер, Р. А. (1936). «Использование множественных измерений в таксономических задачах». Анналы евгеники. 7 (2): 179–188. Дои:10.1111 / j.1469-1809.1936.tb02137.x. HDL:2440/15227.
  3. ^ Фишер, Р. А. (1938). «Статистическое использование множественных измерений». Анналы евгеники. 8 (4): 376–386. Дои:10.1111 / j.1469-1809.1938.tb02189.x. HDL:2440/15232.
  4. ^ а б Гнанадезикан Р. (1977) Методы статистического анализа данных многомерных наблюдений, Wiley. ISBN  0-471-30845-5 (стр. 83–86)
  5. ^ Рао, К. (1952) Расширенные статистические методы в многомерном анализе, Wiley. (Раздел 9c)
  6. ^ Андерсон, Т. (1958) Введение в многомерный статистический анализ, Wiley.
  7. ^ Биндер, Д. А. (1978). «Байесовский кластерный анализ». Биометрика. 65: 31–38. Дои:10.1093 / biomet / 65.1.31.
  8. ^ Биндер, Дэвид А. (1981). «Приближение к правилам байесовской кластеризации». Биометрика. 68: 275–285. Дои:10.1093 / biomet / 68.1.275.
  9. ^ Хар-Пелед, С., Рот, Д., Зимак, Д. (2003) "Ограниченная классификация для многоклассовой классификации и ранжирования". В: Беккер Б., Трун, С., Обермайер, К. (ред.) Достижения в системах обработки нейронной информации 15: Материалы конференции 2002 г., MIT Press. ISBN  0-262-02550-7
  10. ^ "Что такое классификатор в машинном обучении?".
  11. ^ "Обзор 10 лучших алгоритмов для новичков в машинном обучении". Встроенный. 2018-01-20. Получено 2019-06-10.
  12. ^ Питер Миллс (2011). «Эффективная статистическая классификация спутниковых измерений». Международный журнал дистанционного зондирования. 32 (21): 6109–6132. arXiv:1202.2194. Bibcode:2011IJRS ... 32.6109M. Дои:10.1080/01431161.2010.507795. S2CID  88518570.