Аппроксимации матриц низкого ранга - Low-rank matrix approximations

Аппроксимации матриц низкого ранга являются важными инструментами в применении методы ядра для крупномасштабного обучения проблемы.[1]

Методы ядра (например, опорные векторные машины или же Гауссовские процессы[2]) проецировать точки данных в многомерные или бесконечномерные пространство функций и найти оптимальную гиперплоскость расщепления. в ядерный метод данные представлены в виде матрица ядра (или же, Матрица Грама ). Многие алгоритмы могут решить машинное обучение проблемы с использованием матрица ядра. Основная проблема ядерный метод это высокий вычислительная стоимость связана с матрицы ядра. Стоимость как минимум квадратична по количеству точек данных обучения, но большинство методы ядра включать вычисление инверсия матриц или же разложение на собственные значения и стоимость становится кубической по количеству обучающих данных. Большие тренировочные наборы вызывают большие затраты на хранение и вычисления. Несмотря на методы разложения низкого ранга (Разложение Холецкого ) уменьшают эту стоимость, они по-прежнему требуют вычисления матрица ядра. Один из подходов к решению этой проблемы - матричные аппроксимации низкого ранга. Самые популярные из них: Метод Нистрома и случайные особенности. Оба они были успешно применены для эффективного обучения ядра.

Приближение Нистрома

Методы ядра становится неосуществимым, когда количество очков настолько велик, что матрица ядра не могут быть сохранены в памяти.

Если количество обучающих примеров, стоимость хранения и вычислений требуется найти решение проблемы с помощью общих ядерный метод является и соответственно. Приближение Нистрома может позволить значительно ускорить вычисления.[2][3] Это ускорение достигается за счет использования вместо матрица ядра его приближение из классифицировать . Преимущество метода заключается в том, что нет необходимости вычислять или сохранять все матрица ядра, но только его размерный блок .

Это снижает требования к хранению и сложности до и соответственно.

Теорема для ядерной аппроксимации

это матрица ядра для некоторых ядерный метод. Рассмотрим первый очков в тренировочной выборке. Тогда существует матрица из классифицировать :

, куда

,

обратимая матрица

и

Доказательство

Приложение для разложения по сингулярным числам

Применение сингулярное разложение (СВД) в матрицу с размерами производит особая система состоящий из сингулярные значения векторов и такие, что они образуют ортонормированные базы и соответственно:

Если и матрицы с 'песок В столбцах и это диагональ матрица, имеющая сингулярные значения во-первых -записи по диагонали (все остальные элементы матрицы нулевые):

тогда матрица можно переписать как:[4]

.

Дальнейшее доказательство
  • является матрица данных

Применение сингулярного разложения к этим матрицам:

  • это -мерная матрица, состоящая из первых строки матрицы

Применение сингулярного разложения к этим матрицам:

С находятся ортогональные матрицы,

Замена , приближение для может быть получен:

( не обязательно ортогональная матрица ).

Однако, определяя , его можно вычислить следующим образом:

По характеристике ортогональная матрица : равенство держит. Затем, используя формулу, обратную матричное умножение за обратимые матрицы и , выражение в фигурных скобках можно переписать как:

.

Тогда выражение для :

.

Определение , доказательство окончено.

Общая теорема для аппроксимации ядра для карты признаков

Для карты характеристик с ассоциированным ядро : равенство также следует заменой оператором такой, что , , , и оператором такой, что , , . Еще раз, простая проверка показывает, что карта признаков нужна только для доказательства, а конечный результат зависит только от вычисления функции ядра.

Приложение для регуляризованных наименьших квадратов

В векторной и ядерной нотации проблема Регуляризованный метод наименьших квадратов можно переписать как:

.

Вычислив градиент и установив значение 0, можно получить минимум:

Обратная матрица можно вычислить, используя Тождество матрицы Вудбери:

Он имеет желаемые требования к хранению и сложности.

Аппроксимация случайных карт признаков

Позволять - образцы данных, - рандомизированный карта характеристик (отображает один вектор в вектор более высокой размерности), так что внутреннее произведение между парой преобразованных точек аппроксимирует их ядро оценка:

,

куда отображение, вложенное в Ядро RBF.

С низкоразмерен, ввод можно легко преобразовать с помощью , после этого могут применяться различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты функций для вычисления приближений к ядрам RBF. Например, Случайные особенности Фурье и случайные функции биннинга.

Случайные особенности Фурье

Случайные особенности Фурье карта производит Монте-Карло приближение к карте признаков. Метод Монте-Карло считается рандомизированным. Эти случайные особенности состоит из синусоид случайно взятый из преобразование Фурье из ядро быть приближенным, где и находятся случайные переменные. Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью сопоставлений. Полученный скаляр пропускается через синусоиду. Произведение преобразованных точек будет приближать инвариантное к сдвигу ядро. Поскольку карта гладкая, случайные особенности Фурье хорошо работают с задачами интерполяции.

Возможности случайного биннинга

Карта случайного разбиения на части разделяет входное пространство с помощью случайно сдвинутых сеток с произвольно выбранными разрешениями и назначает входной точке двоичную битовую строку, которая соответствует ячейкам, в которые она попадает. Сетки построены так, что вероятность того, что две точки присваиваются одному и тому же бункеру, пропорционально . Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и поэтому является несмещенной оценкой . Поскольку это сопоставление не является гладким и использует близость между входными точками, функции случайного объединения хорошо работают для аппроксимации ядер, которые зависят только от - расстояние между точками данных.

Сравнение методов аппроксимации

Подходы для крупномасштабного обучения ядра (Метод Нистрома и случайные признаки) отличается тем, что в методе Нюстрёма используются базисные функции, зависящие от данных, в то время как в подходе случайных признаков базисные функции выбираются из распределения, независимого от обучающих данных. Это различие приводит к улучшенному анализу подходов к обучению ядра, основанных на методе Нистрома. Когда есть большой разрыв в собственном спектре ядро матрица, подходы, основанные на методе Нистрома, могут дать лучшие результаты, чем Случайные особенности основанный подход.[5]

Смотрите также

внешняя ссылка

Рекомендации

  1. ^ Фрэнсис Р. Бах и Майкл И. Джордан (2005). «Прогнозирующая низкоранговая декомпозиция для ядерных методов». ICML.
  2. ^ а б Уильямс, C.K.I. и Сигер М. (2001). «Использование метода Нистрома для ускорения ядерных машин». Достижения в системах обработки нейронной информации.CS1 maint: использует параметр авторов (связь)
  3. ^ Петрос Дринес и Майкл В. Махони (2005). «О методе Нюстрёма для аппроксимации матрицы Грама для улучшенного обучения на основе ядра». Журнал исследований машинного обучения 6, стр. 2153–2175.
  4. ^ К. Эккарт, Г. Янг, Аппроксимация одной матрицы другой более низкого ранга. Психометрика, Том 1, 1936, страницы 211–8. Дои:10.1007 / BF02288367
  5. ^ Тяньбао Ян, Ю-Фэн ​​Ли, Мехрдад Махдави, Ронг Джин и Чжи-Хуа Чжоу (2012). "Метод Нистрома против случайных характеристик Фурье: теоретическое и эмпирическое сравнение". Достижения в системах обработки нейронной информации 25 (NIPS).