Минимизация структурных рисков - Structural risk minimization

Минимизация структурных рисков (SRM) индуктивный принцип использования в машинное обучение. Обычно в машинном обучении обобщенная модель должна быть выбрана из конечного набора данных, что приводит к следующей проблеме: переоснащение - модель становится слишком сильно адаптированной к особенностям обучающей выборки и плохо обобщается на новые данные. Принцип SRM решает эту проблему, уравновешивая сложность модели и ее успех в подборе обучающих данных. Этот принцип был впервые изложен в статье 1974 г. Владимир Вапник и Алексей Червоненкис и использует Размер ВК.

На практике минимизация структурных рисков реализуется за счет минимизации , куда - ошибка поезда, функция называется функцией регуляризации, а является константой. выбирается так, что принимает большие значения по параметрам которые принадлежат подмножествам большой емкости пространства параметров. Сведение к минимуму фактически ограничивает емкость доступных подмножеств пространства параметров, тем самым управляя компромиссом между минимизацией ошибки обучения и минимизацией ожидаемого разрыва между ошибкой обучения и ошибкой теста.[1]

Проблема SRM может быть сформулирована в терминах данных. Учитывая n точек данных, состоящих из данных x и меток y, цель часто выражается следующим образом:

Первый член - это член среднеквадратичной ошибки (MSE) между значением изученной модели, , а данные метки . Этот термин - ошибка обучения, , что обсуждалось ранее. Второй член ставит приоритет над весами, чтобы способствовать разреженности и наказывать большие веса. Коэффициент компенсации, , является гиперпараметром, придающим большее или меньшее значение члену регуляризации. Больше поощряет меньший вес за счет более оптимального MSE и меньшего ослабляет регуляризацию, позволяя модели соответствовать данным. Обратите внимание, что как веса становятся равными нулю, и при , модель обычно страдает от переобучения.


Смотрите также

Рекомендации

  1. ^ ЛеКун, Янн. «Градиентное обучение применительно к распознаванию документов» (PDF).

внешняя ссылка