SUBCLU - Википедия - SUBCLU

SUBCLU это алгоритм для кластеризация многомерных данных Карин Кайлинг, Ханс-Петер Кригель и Пер Крёгер.^[1] Это кластеризация подпространств алгоритм, основанный на алгоритме кластеризации на основе плотности DBSCAN. SUBCLU может найти кластеры в параллельно оси подпространств и использует вверх дном, жадный стратегия оставаться эффективной.

Подход

SUBCLU использует монотонность критерии: если кластер найден в подпространстве ${ displaystyle S}$ , то каждое подпространство ${ displaystyle T substeq S}$ также содержит кластер. Однако кластер ${ Displaystyle C substeq DB}$ в подпространстве ${ displaystyle S}$ не обязательно кластер в ${ displaystyle T substeq S}$ , поскольку кластеры должны быть максимальными, и в кластере может содержаться больше объектов. ${ displaystyle T}$ который содержит ${ displaystyle C}$ . Однако плотно связанный набор в подпространстве ${ displaystyle S}$ также является плотносвязным множеством в ${ displaystyle T substeq S}$ .

Этот свойство закрытия вниз используется SUBCLU аналогично Алгоритм априори: сначала все одномерные подпространства сгруппированы. Все кластеры в подпространстве более высокого измерения будут подмножествами кластеров, обнаруженных в этой первой кластеризации. SUBCLU, следовательно, рекурсивно производит ${ displaystyle k + 1}$ -мерные подпространства кандидатов путем объединения ${ displaystyle k}$ -мерные подпространства с разделением кластеров ${ displaystyle k-1}$ атрибуты. После удаления нерелевантных кандидатов DBSCAN применяется к подпространству-кандидату, чтобы узнать, содержит ли оно еще кластеры. Если это так, то подпространство-кандидат используется для следующей комбинации подпространств. Чтобы улучшить время работы DBSCAN, только точки, о которых известно, что они принадлежат кластерам в одном ${ displaystyle k}$ -мерное подпространство (выбранное таким образом, чтобы кластеров было как можно меньше). Из-за свойства закрытия вниз другая точка не может быть частью ${ displaystyle k + 1}$ -мерный кластер в любом случае.

Псевдокод

SUBCLU принимает два параметра, ${ Displaystyle epsilon ! ,}$ и ${ displaystyle MinPts}$ , которые выполняют ту же роль, что и в DBSCAN. На первом этапе DBSCAN используется для поиска одномерных кластеров в каждом подпространстве, охватываемом одним атрибутом:

${ displaystyle { mathtt {SUBCLU}} (БД, eps, MinPts)}$

{ Displaystyle S_ {1}: = emptyset}

{ Displaystyle C_ {1}: = emptyset}

{ displaystyle { mathtt {for , each}} , a in Attributes}

{ Displaystyle C ^ { {a }} = { mathtt {DBSCAN}} (DB, {a }, eps, MinPts) ! ,}

{ Displaystyle { mathtt {если}} (С ^ { {а }} neq emptyset)}

{ Displaystyle S_ {1}: = S_ {1} чашка {а }}

{ Displaystyle C_ {1}: = C_ {1} чашка C ^ { {а }}}

{ Displaystyle { mathtt {конец , если}}}

{ Displaystyle { mathtt {конец , для}}}

// На втором этапе

{ displaystyle k + 1}

-мерные кластеры строятся из

{ displaystyle k}

-мерные:

{ Displaystyle к: = 1 ! ,}

{ displaystyle { mathtt {while}} (C_ {k} neq emptyset)}

{ displaystyle { mathtt {CandS}} _ {k + 1}: = { mathtt {GenerateCandidateSubspaces}} (S_ {k}) ! ,}

{ displaystyle { mathtt {для , each}} , cand in { mathtt {CandS}} _ {k + 1}}

{ displaystyle { mathtt {bestSubspace: =}} min _ {s in S_ {k} wedge s subset cand} sum _ {C_ {i} in C ^ {s}} | C_ {i } |}

{ displaystyle C ^ {cand}: = emptyset}

{ displaystyle { mathtt {для , each , cluster}} , cl in C ^ { mathtt {bestSubspace}}}

{ displaystyle C ^ {cand}: = C ^ {cand} cup { mathtt {DBSCAN}} (cl, cand, eps, MinPts)}

{ displaystyle { mathtt {if}} , (C ^ {cand} neq emptyset)}

{ Displaystyle S_ {k + 1}: = S_ {k + 1} чашка свечи}

{ Displaystyle C_ {k + 1}: = C_ {k + 1} чашка C ^ {Cand}}

{ Displaystyle { mathtt {конец , если}}}

{ Displaystyle { mathtt {конец , для}}}

{ Displaystyle { mathtt {конец , для}}}

{ Displaystyle к: = к + 1 ! ,}

{ Displaystyle { mathtt {конец , а}}}

${ Displaystyle { mathtt {конец}} ! ,}$

Набор ${ displaystyle S_ {k}}$ содержит все ${ displaystyle k}$ -мерные подпространства, о которых известно, что они содержат кластеры. Набор ${ displaystyle C_ {k}}$ содержит наборы кластеров, найденных в подпространствах. В ${ displaystyle bestSubspace}$ выбирается для минимизации запусков DBSCAN (и количества точек, которые необходимо учитывать при каждом запуске) для поиска кластеров в подпространствах-кандидатах.

Подпространства-кандидаты генерируются очень похоже на Алгоритм априори генерирует частые кандидаты в наборы элементов: пары ${ displaystyle k}$ -мерные подпространства сравниваются, и если они отличаются только одним атрибутом, они образуют ${ displaystyle k + 1}$ -мерный кандидат. Однако обнаруживается и ряд нерелевантных кандидатов; они содержат ${ displaystyle k}$ -мерное подпространство, не содержащее кластера. Следовательно, эти кандидаты удаляются на втором этапе: