Аппроксимации матриц низкого ранга являются важными инструментами в применении методы ядра для крупномасштабного обучения проблемы.[1]
Методы ядра (например, опорные векторные машины или же Гауссовские процессы[2]) проецировать точки данных в многомерные или бесконечномерные пространство функций и найти оптимальную гиперплоскость расщепления. в ядерный метод данные представлены в виде матрица ядра (или же, Матрица Грама ). Многие алгоритмы могут решить машинное обучение проблемы с использованием матрица ядра. Основная проблема ядерный метод это высокий вычислительная стоимость связана с матрицы ядра. Стоимость как минимум квадратична по количеству точек данных обучения, но большинство методы ядра включать вычисление инверсия матриц или же разложение на собственные значения и стоимость становится кубической по количеству обучающих данных. Большие тренировочные наборы вызывают большие затраты на хранение и вычисления. Несмотря на методы разложения низкого ранга (Разложение Холецкого ) уменьшают эту стоимость, они по-прежнему требуют вычисления матрица ядра. Один из подходов к решению этой проблемы - матричные аппроксимации низкого ранга. Самые популярные из них: Метод Нистрома и случайные особенности. Оба они были успешно применены для эффективного обучения ядра.
Приближение Нистрома
Методы ядра становится неосуществимым, когда количество очков настолько велик, что матрица ядра не могут быть сохранены в памяти.
Если количество обучающих примеров, стоимость хранения и вычислений требуется найти решение проблемы с помощью общих ядерный метод является и соответственно. Приближение Нистрома может позволить значительно ускорить вычисления.[2][3] Это ускорение достигается за счет использования вместо матрица ядра его приближение из классифицировать . Преимущество метода заключается в том, что нет необходимости вычислять или сохранять все матрица ядра, но только его размерный блок .
Это снижает требования к хранению и сложности до и соответственно.
Теорема для ядерной аппроксимации
это матрица ядра для некоторых ядерный метод. Рассмотрим первый очков в тренировочной выборке. Тогда существует матрица из классифицировать :
, куда
,
обратимая матрица
и
Доказательство
Приложение для разложения по сингулярным числам
Применение сингулярное разложение (СВД) в матрицу с размерами производит особая система состоящий из сингулярные значения векторов и такие, что они образуют ортонормированные базы и соответственно:
Если и матрицы с 'песок В столбцах и это диагональ матрица, имеющая сингулярные значения во-первых -записи по диагонали (все остальные элементы матрицы нулевые):
тогда матрица можно переписать как:[4]
.
Дальнейшее доказательство
- является матрица данных
Применение сингулярного разложения к этим матрицам:
- это -мерная матрица, состоящая из первых строки матрицы
Применение сингулярного разложения к этим матрицам:
С находятся ортогональные матрицы,
Замена , приближение для может быть получен:
( не обязательно ортогональная матрица ).
Однако, определяя , его можно вычислить следующим образом:
По характеристике ортогональная матрица : равенство держит. Затем, используя формулу, обратную матричное умножение за обратимые матрицы и , выражение в фигурных скобках можно переписать как:
.
Тогда выражение для :
.
Определение , доказательство окончено.
Общая теорема для аппроксимации ядра для карты признаков
Для карты характеристик с ассоциированным ядро : равенство также следует заменой оператором такой, что , , , и оператором такой, что , , . Еще раз, простая проверка показывает, что карта признаков нужна только для доказательства, а конечный результат зависит только от вычисления функции ядра.
Приложение для регуляризованных наименьших квадратов
В векторной и ядерной нотации проблема Регуляризованный метод наименьших квадратов можно переписать как:
- .
Вычислив градиент и установив значение 0, можно получить минимум:
Обратная матрица можно вычислить, используя Тождество матрицы Вудбери:
Он имеет желаемые требования к хранению и сложности.
Аппроксимация случайных карт признаков
Позволять - образцы данных, - рандомизированный карта характеристик (отображает один вектор в вектор более высокой размерности), так что внутреннее произведение между парой преобразованных точек аппроксимирует их ядро оценка:
,
куда отображение, вложенное в Ядро RBF.
С низкоразмерен, ввод можно легко преобразовать с помощью , после этого могут применяться различные методы линейного обучения для аппроксимации ответа соответствующего нелинейного ядра. Существуют различные рандомизированные карты функций для вычисления приближений к ядрам RBF. Например, Случайные особенности Фурье и случайные функции биннинга.
Случайные особенности Фурье
Случайные особенности Фурье карта производит Монте-Карло приближение к карте признаков. Метод Монте-Карло считается рандомизированным. Эти случайные особенности состоит из синусоид случайно взятый из преобразование Фурье из ядро быть приближенным, где и находятся случайные переменные. Линия выбирается случайным образом, затем точки данных проецируются на нее с помощью сопоставлений. Полученный скаляр пропускается через синусоиду. Произведение преобразованных точек будет приближать инвариантное к сдвигу ядро. Поскольку карта гладкая, случайные особенности Фурье хорошо работают с задачами интерполяции.
Возможности случайного биннинга
Карта случайного разбиения на части разделяет входное пространство с помощью случайно сдвинутых сеток с произвольно выбранными разрешениями и назначает входной точке двоичную битовую строку, которая соответствует ячейкам, в которые она попадает. Сетки построены так, что вероятность того, что две точки присваиваются одному и тому же бункеру, пропорционально . Внутренний продукт между парой преобразованных точек пропорционален количеству раз, когда две точки объединяются вместе, и поэтому является несмещенной оценкой . Поскольку это сопоставление не является гладким и использует близость между входными точками, функции случайного объединения хорошо работают для аппроксимации ядер, которые зависят только от - расстояние между точками данных.
Сравнение методов аппроксимации
Подходы для крупномасштабного обучения ядра (Метод Нистрома и случайные признаки) отличается тем, что в методе Нюстрёма используются базисные функции, зависящие от данных, в то время как в подходе случайных признаков базисные функции выбираются из распределения, независимого от обучающих данных. Это различие приводит к улучшенному анализу подходов к обучению ядра, основанных на методе Нистрома. Когда есть большой разрыв в собственном спектре ядро матрица, подходы, основанные на методе Нистрома, могут дать лучшие результаты, чем Случайные особенности основанный подход.[5]
Смотрите также
внешняя ссылка
Рекомендации
- ^ Фрэнсис Р. Бах и Майкл И. Джордан (2005). «Прогнозирующая низкоранговая декомпозиция для ядерных методов». ICML.
- ^ а б Уильямс, C.K.I. и Сигер М. (2001). «Использование метода Нистрома для ускорения ядерных машин». Достижения в системах обработки нейронной информации.CS1 maint: использует параметр авторов (связь)
- ^ Петрос Дринес и Майкл В. Махони (2005). «О методе Нюстрёма для аппроксимации матрицы Грама для улучшенного обучения на основе ядра». Журнал исследований машинного обучения 6, стр. 2153–2175.
- ^ К. Эккарт, Г. Янг, Аппроксимация одной матрицы другой более низкого ранга. Психометрика, Том 1, 1936, страницы 211–8. Дои:10.1007 / BF02288367
- ^ Тяньбао Ян, Ю-Фэн Ли, Мехрдад Махдави, Ронг Джин и Чжи-Хуа Чжоу (2012). "Метод Нистрома против случайных характеристик Фурье: теоретическое и эмпирическое сравнение". Достижения в системах обработки нейронной информации 25 (NIPS).