Структурированная опорная векторная машина - Structured support vector machine

В структурированная опорная векторная машина это машинное обучение алгоритм, обобщающий Машина опорных векторов (SVM) классификатор. В то время как классификатор SVM поддерживает двоичная классификация, мультиклассовая классификация и регресс, структурированная SVM позволяет обучить классификатор для общих структурированные выходные метки.

Например, образец экземпляра может быть предложением на естественном языке, а метка вывода - аннотированной. дерево синтаксического анализа. Обучение классификатора состоит из показа пар правильных пар выборки и выходных меток. После обучения структурированная модель SVM позволяет прогнозировать для новых экземпляров выборки соответствующую метку вывода; то есть, учитывая предложение на естественном языке, классификатор может создать наиболее вероятное дерево синтаксического анализа.

Обучение персонала

Для набора учебные экземпляры , из пробного пространства и пространство для меток , структурированная SVM минимизирует следующую регуляризованную функцию риска.

Функция выпуклая в потому что максимум набора аффинных функций выпуклый. Функция измеряет расстояние в пространстве меток и является произвольной функцией (не обязательно метрика ) удовлетворение и . Функция - функция функции, извлекающая некоторый вектор признаков из заданного образца и метки. Дизайн этой функции во многом зависит от приложения.

Поскольку приведенная выше регуляризованная функция риска недифференцируема, ее часто переформулируют в терминах квадратичная программа введя одну переменную Slack для каждого образца, каждый представляет значение максимума. Стандартная структурированная первичная формулировка SVM приведена ниже.

Вывод

Во время тестирования только образец известна, а функция прогноза сопоставляет его с предсказанной меткой из пространства меток . Для структурированных SVM с учетом вектора Полученная в результате обучения функция прогнозирования следующая.

Следовательно, максимизатор над пространством меток - это предсказанная метка. Решением этого максимизатора является так называемая проблема вывода, аналогичная построению максимального апостериорного предсказания (MAP) в вероятностных моделях. В зависимости от структуры функции , решение для максимайзера может оказаться сложной задачей.

Разделение

Вышеупомянутая квадратичная программа включает в себя очень большое, возможно, бесконечное количество ограничений линейного неравенства. В общем, количество неравенств слишком велико, чтобы их можно было оптимизировать явно. Вместо этого проблема решается с помощью отложенная генерация ограничений где используется только конечное и небольшое подмножество ограничений. Оптимизация по подмножеству ограничений увеличивает возможный набор и даст решение, которое обеспечивает нижнюю границу цели. Чтобы проверить, подходит ли решение нарушает ограничения полного набора неравенств, необходимо решить проблему разделения. Поскольку неравенства разлагаются по выборкам, для каждой выборки необходимо решить следующую проблему.

Правая часть цели, которая должна быть максимизирована, состоит из постоянной и член, зависящий от оптимизируемых переменных, а именно . Если достигнутый целевой показатель правой части меньше или равен нулю, для этого образца не существует никаких нарушенных ограничений. Если оно строго больше нуля, то было выявлено наиболее нарушенное ограничение по отношению к этой выборке. Проблема усугубляется этим ограничением и решается. Процесс продолжается до тех пор, пока не удастся выявить нарушения неравенства.

Если исключить константы из указанной выше проблемы, мы получим следующую проблему, которую необходимо решить.

Эта проблема очень похожа на проблему вывода. Единственное отличие - добавление термина . Чаще всего его выбирают так, чтобы он имел естественное разложение в пространстве меток. В этом случае влияние может быть закодирован в задачу вывода, и решение наиболее нарушающего ограничения эквивалентно решению проблемы вывода.

Рекомендации