K q-flats - Википедия - k q-flats


В сбор данных и машинное обучение, -flats алгоритм [1][2] это итерационный метод, направленный на разбиение наблюдения в кластеры, где каждый кластер близок к -плоский, куда заданное целое число.

Это обобщение -средний алгоритм. В -значит алгоритм, кластеры формируются таким образом, чтобы каждый кластер приближался к одной точке, которая является -плоский. -flats алгоритм дает лучший результат кластеризации, чем - означает алгоритм для некоторого набора данных.

Описание

Постановка проблемы

Учитывая набор из наблюдения где каждое наблюдение - n-мерный действительный вектор, -flats алгоритм направлен на разбиение точки наблюдения путем создания -плоскости, которые минимизируют сумму квадратов расстояний каждого наблюдения до ближайшей q-квартиры.

А -flat - это подмножество это соответствует . Например, -плоскость - это точка; а -плоскость - линия; а -плоскость - это самолет; а -квартира гиперплоскость.-плоскость может быть охарактеризована системой решений линейной системы уравнений: , куда , .

Обозначим a раздел из в качестве Задачу можно сформулировать как

куда это проекция на .Обратите внимание, что это расстояние от к .

Алгоритм

Алгоритм аналогичен алгоритму k-средних (то есть алгоритму Ллойда) в том, что он чередуется между назначением кластера и обновлением кластера. В частности, алгоритм начинается с начального набора -квартиры , и выполняется чередование следующих двух шагов:

Назначение кластера (данный -квартиры, назначить каждую точку ближайшей -flat): i-й кластер обновляется как
Обновление кластера (учитывая назначение кластера, обновите -квартир): Для , позволять со строками, соответствующими всем назначен кластеру . Набор быть матрицей, столбцы которой являются ортонормированными собственными векторами, соответствующими наименьшие собственные значения и .

Остановитесь, когда назначения больше не меняются.

На этапе присвоения кластера используется следующий факт: с учетом q-квартиры и вектор , куда , расстояние от в q-квартиру является

Ключевой частью этого алгоритма является обновление кластера, т.е. очков, как найти -плоскость, минимизирующая сумму квадратов расстояний от каждой точки до -плоский. Математически эта задача: дано решить задачу квадратичной оптимизации

при условии

куда дано, и .

Проблему можно решить с помощью метода множителей Лагранжа, и решение будет таким, как указано на этапе обновления кластера.

Можно показать, что алгоритм завершится за конечное число итераций (не более, чем общее количество возможных назначений, которое ограничено ). Кроме того, алгоритм завершится в точке, в которой общая цель не может быть уменьшена ни другим назначением, ни определением новых плоскостей кластеров для этих кластеров (такая точка в справочниках называется «локально оптимальной»).

Этот результат сходимости является следствием того, что задача (P2) может быть решена точно. Тот же результат сходимости верен для - означает алгоритм, поскольку проблема обновления кластера может быть решена точно.

Отношение к другим методам машинного обучения

-средний алгоритм

-flats алгоритм является обобщением - означает алгоритм. Фактически, -значит алгоритм Алгоритм 0-квартиры, поскольку точка является 0-квартиры. Несмотря на их связь, их следует использовать в разных сценариях. -flats алгоритм для случая, когда данные лежат в нескольких низкоразмерных пространствах.- означает, что алгоритм желателен для случая, когда кластеры имеют окружающее измерение. Например, если все наблюдения лежат в двух строках, -flats алгоритм с может быть использовано; если наблюдения два Гауссовы облака, -средний алгоритм может быть использован.

Изучение разреженного словаря

Естественные сигналы лежат в многомерном пространстве. Например, размер изображения 1024 на 1024 составляет около 106, что слишком велико для большинства алгоритмов обработки сигналов. Один из способов избавиться от высокой размерности - найти набор базисных функций, такой, что многомерный сигнал может быть представлен только несколькими базисными функциями. Другими словами, коэффициенты представления сигнала находятся в низкоразмерном пространстве, что упрощает применение алгоритмов обработки сигналов. В литературе вейвлет-преобразование обычно используется при обработке изображений, а преобразование Фурье - при обработке звука. Набор базисных функций обычно называют толковый словарь.

Однако неясно, какой словарь лучше всего использовать после набора данных сигнала. Один из популярных подходов - найти словарь по набору данных с использованием идеи обучения разреженному словарю. Его цель - найти словарь, в котором сигнал может быть редко представлен в словаре. Задачу оптимизации можно записать следующим образом.

при условии

куда

  • X - это d к N матрица. Каждый столбец X представляет сигнал, и всего N сигналы.
  • B - это d к л матрица. Каждый столбец B представляет базисную функцию, и всего л базовые функции в словаре.
  • R - это л к N матрица. (яth столбцы R) представляют коэффициенты, когда мы используем словарь B для представления яth столбцы X.
  • обозначает нулевую норму вектора v.
  • обозначает норму Фробениуса матрицы V.

Идея Алгоритм flats по своей природе схож с редким изучением словаря. Если сузить q-плоское до q-мерного подпространства, то Алгоритм flats просто находит замкнутое q-мерное подпространство для данного сигнала. Изучение разреженного словаря тоже делает то же самое, за исключением дополнительных ограничений на разреженность представления. Математически можно показать, что Алгоритм flats представляет собой изучение разреженного словаря с дополнительной блочной структурой на р.

Позволять быть матрица, где столбцы являются основой плоский. Тогда проекция сигнала Икс к квартира , куда - q-мерный коэффициент. Позволять Обозначим конкатенацию базиса из K квартир, легко показать, что алгоритм k -q-квартиры совпадает со следующим.

при условии и р имеет блочную структуру.

Блочная структура р ссылается на то, что каждый сигнал помечен только на одну квартиру. Сравнивая две формулировки, k q-flat совпадает с моделированием разреженного словаря, когда и с дополнительной блочной структурой на р. Пользователи могут обратиться к статье Шлама [3] для более подробного обсуждения взаимосвязи между двумя концепциями.

Приложения и варианты

Классификация

Классификация - это процедура, которая классифицирует входной сигнал на разные классы. Одним из примеров является классификация электронного письма на спам или же не-спам классы. Алгоритмы классификации обычно требуют контролируемого обучения. На этапе обучения с учителем данные обучения для каждого класса используются алгоритмом для изучения характеристик класса. На этапе классификации новое наблюдение классифицируется в класс с использованием уже обученных характеристик.

k q-плоский алгоритм может использоваться для классификации. Предположим, всего m классов. Для каждого класса k квартир обучаются априори с помощью набора обучающих данных. Когда приходят новые данные, найдите квартиру, которая ближе всего к новым данным. Затем новые данные привязываются к классу ближайшей квартиры.

Однако эффективность классификации можно улучшить, если наложить на квартиры некоторую структуру. Один из возможных вариантов - требовать, чтобы разные квартиры разного класса находились достаточно далеко друг от друга. Некоторые исследователи [4] использовать эту идею и разработать дискриминантный алгоритм k q-flat.

K-метрики [3]

В -flats алгоритм, используется для измерения ошибки представления. обозначает проекцию Икс в квартиру F. Если данные лежат в q-мерной плоскости, то одна q-плоскость может очень хорошо представить данные. Напротив, если данные находятся в пространстве очень высокой размерности, но вблизи общего центра, то алгоритм k-средних является лучшим способом представления данных, чем алгоритм k q-flat. Это потому что - означает использование алгоритма для измерения погрешности, где обозначает центр. K-метрики - это обобщение, в котором используются как плоские, так и средние значения. В k-метриках ошибка измеряется следующей метрикой Махаланобиса.

куда А - положительная полуопределенная матрица.

Если А - единичная матрица, то метрика Махаланобиса точно такая же, как мера ошибки, используемая в k-средних. Если А не является единичной матрицей, то будет отдавать предпочтение определенным направлениям в качестве меры ошибки k q-flat.

Рекомендации

  1. ^ Брэдли, П. С. и О. Л. Мангасарян. 2000. Кластеризация в k-плоскости. Журнал глобальной оптимизации 16, вып. 1: 23-32. https://doi.org/10.1023%2FA%3A1008324625522.
  2. ^ Ценг, П. 2000. Ближайшие q-бемоль к m точкам. Журнал теории оптимизации и приложений 105, вып. 1: 249–252.
  3. ^ а б Szlam, A и G Sapiro. 2009. «Дискриминационные k-метрики». Эд. Леон Ботту и Майкл Литтман. Обработка (1) 744615-744615-10
  4. ^ Szlam, A и G Sapiro. «Обучение с учителем с помощью дискриминационных k q-квартир» [1]