Мягкое независимое моделирование аналогий классов - Soft independent modelling of class analogies

Мягкое независимое моделирование по аналогии классов (SIMCA) - это статистический метод для контролируемая классификация данных. Метод требует набор обучающих данных состоящий из образцов (или объектов) с набором атрибутов и их принадлежности к классу. Термин «мягкий» относится к тому факту, что классификатор может идентифицировать образцы как принадлежащие к нескольким классам и не обязательно производить классификацию образцов на неперекрывающиеся классы.

Метод

Чтобы построить классификационные модели, необходимо проанализировать образцы, принадлежащие к каждому классу, с использованием Анализ главных компонентов (СПС); сохраняются только важные компоненты.

Для данного класса результирующая модель затем описывает либо линию (для одного главного компонента или ПК), плоскость (для двух ПК) или гиперплоскость (более двух ПК). Для каждого смоделированного класса среднее ортогональное расстояние выборок обучающих данных от линии, плоскости или гиперплоскости (рассчитанное как остаточное стандартное отклонение) используется для определения критического расстояния для классификации. Это критическое расстояние основано на F-распределение и обычно рассчитывается с использованием доверительных интервалов 95% или 99%.

Новые наблюдения проецируются в каждую модель ПК и рассчитываются остаточные расстояния. Наблюдение назначается классу модели, когда его остаточное расстояние от модели ниже статистического предела для класса. Можно обнаружить, что наблюдение принадлежит нескольким классам и измеряет доброта модели можно найти по количеству случаев, когда наблюдения классифицируются по нескольким классам. Эффективность классификации обычно обозначается как Рабочие характеристики приемника.

В исходном методе SIMCA концы гиперплоскости каждого класса закрываются путем установки статистических контрольных пределов по осям сохраненных основных компонентов (т. Е. Значение оценки между плюс и минус 0,5 стандартного отклонения оценки).

Более поздние адаптации метода SIMCA закрывают гиперплоскость за счет построения эллипсоидов (например, Ти Хотеллинга2 или же Расстояние Махаланобиса ). С такими модифицированными методами SIMCA для классификации объекта требуется, чтобы его ортогональное расстояние от модели и его проекция в модели (то есть значение оценки в области, определяемой эллипсоидом) не имели значения.

Заявление

SIMCA как метод классификации получил широкое распространение, особенно в прикладных статистических областях, таких как хемометрия и спектроскопический анализ данных.

Рекомендации

  • Уолд, Сванте и Сьостром, Майкл, 1977, SIMCA: метод анализа химических данных с точки зрения сходства и аналогии, в Ковальски, Б. Р., под ред., Chemometrics Theory and Application, American Chemical Society Symposium Series 52, Wash., DC. , Американское химическое общество, стр. 243-282.