Индекс Rand - Rand index

Примеры кластеризации для набора данных с kMeans (слева) и Средний сдвиг (справа) алгоритмы. Рассчитанный скорректированный индекс Rand для этих двух кластеров равен

В Индекс Рэнда[1] или же Ранд мера (названный в честь Уильяма М. Рэнда) в статистика, и в частности в кластеризация данных, является мерой сходства между двумя кластеризация данных. Может быть определена форма индекса Рэнда, скорректированная с учетом случайной группировки элементов, это скорректированный индекс Rand. С математической точки зрения индекс Рэнда связан с точность, но применимо, даже когда метки классов не используются.

Индекс Rand

Определение

Учитывая набор из элементы и два перегородки из сравнивать, , раздел S в р подмножества и , раздел S в s подмножества, определите следующее:

  • , количество пар элементов в которые находятся в одно и тоже подмножество в и в одно и тоже подмножество в
  • , количество пар элементов в которые находятся в разные подмножества в И в разные подмножества в
  • , количество пар элементов в которые находятся в одно и тоже подмножество в И в разные подмножества в
  • , количество пар элементов в которые находятся в разные подмножества в и в одно и тоже подмножество в

Индекс Рэнда, , является:[1][2]

Интуитивно можно рассматривать как количество соглашений между и и как количество разногласий между и .

Поскольку знаменатель - это общее количество пар, индекс Rand представляет собой частота появлениясоглашений по всем парам, или вероятность того, что и договорится о случайно выбранной паре.

рассчитывается как .


Аналогичным образом, можно также рассматривать индекс Rand как меру процента правильных решений, принятых алгоритмом. Его можно вычислить по следующей формуле:

куда это количество истинных положительных результатов, это количество истинные негативы, это количество ложные срабатывания, и это количество ложные отрицания.

Характеристики

Индекс Rand имеет значение от 0 до 1, где 0 указывает, что две кластеры данных не согласуются ни по одной паре точек, а 1 указывает, что кластеризация данных точно такая же.

С математической точки зрения, a, b, c, d определяются следующим образом:

  • , куда
  • , куда
  • , куда
  • , куда

для некоторых

Связь с точностью классификации

Индекс Рэнда также можно рассматривать через призму точности двоичной классификации пар элементов в . Две метки класса: " и находятся в том же подмножестве в и " и " и находятся в разных подмножествах и ".

В этой обстановке количество пар, правильно помеченных как принадлежащие к одному подмножеству (истинные положительные моменты ), и количество пар, правильно помеченных как принадлежащие к разным подмножествам (истинные негативы ).

Скорректированный индекс Rand

Скорректированный индекс Rand - это версия индекса Rand с поправкой на случайность.[1][2][3] Такая поправка на случайность устанавливает базовый уровень, используя ожидаемое подобие всех парных сравнений между кластеризациями, заданными случайной моделью. Традиционно индекс Rand корректировался с использованием модели перестановки для кластеризации (количество и размер кластеров в кластере фиксированы, и все случайные кластеры генерируются путем перетасовки элементов между фиксированными кластерами). Однако посылки модели перестановок часто нарушаются; во многих сценариях кластеризации количество кластеров или их распределение по размеру сильно различаются. Например, рассмотрим, что в K-означает количество кластеров фиксируется практикующим специалистом, но размеры этих кластеров выводятся из данных. Вариации скорректированного индекса Rand учитывают разные модели случайных кластеров.[4]

Хотя индекс Rand может давать значение только от 0 до +1, скорректированный индекс Rand может давать отрицательные значения, если индекс меньше ожидаемого.[5]

Таблица непредвиденных обстоятельств

Учитывая набор S из п элементы и две группы или разделы (например кластеризации) этих элементов, а именно и , перекрытие между Икс и Y можно обобщить в таблице непредвиденных обстоятельств где каждая запись обозначает количество общих объектов между и  : .

Определение

Исходный скорректированный индекс ранда с использованием модели перестановок:

куда - значения из таблицы непредвиденных обстоятельств.

Смотрите также

Рекомендации

  1. ^ а б c В. М. Рэнд (1971). «Объективные критерии оценки методов кластеризации». Журнал Американской статистической ассоциации. Американская статистическая ассоциация. 66 (336): 846–850. arXiv:1704.01036. Дои:10.2307/2284239. JSTOR  2284239.
  2. ^ а б Лоуренс Хьюберт и Фиппс Араби (1985). «Сравнение перегородок». Журнал классификации. 2 (1): 193–218. Дои:10.1007 / BF01908075.
  3. ^ Нгуен Суан Винь, Жюльен Эппс и Джеймс Бейли (2009). «Теоретико-информационные меры для сравнения кластеризации: необходима ли поправка на случайность?» (PDF). ICML '09: Материалы 26-й ежегодной международной конференции по машинному обучению. ACM. С. 1073–1080.PDF.
  4. ^ Александр Джей Гейтс и Ён Ёль Ан (2017). «Влияние случайных моделей на подобие кластеризации» (PDF). Журнал исследований в области машинного обучения. 18: 1–28.PDF.
  5. ^ http://i11www.iti.uni-karlsruhe.de/extra/publications/ww-cco-06.pdf

внешняя ссылка