Теория Вапника – Червоненкиса. - Vapnik–Chervonenkis theory

Теория Вапника – Червоненкиса. (также известен как Теория ВК) была разработана в 1960–1990 гг. Владимир Вапник и Алексей Червоненкис. Теория - это форма теория вычислительного обучения, который пытается объяснить процесс обучения со статистической точки зрения.

Теория ВК связана с теория статистического обучения и чтобы эмпирические процессы. Ричард М. Дадли и Владимир Вапник, среди прочего, применили теорию ВК к эмпирические процессы.

Вступление

Теория венчурного капитала охватывает как минимум четыре части (как описано в Природа статистической теории обучения[1]):

  • Теория последовательность процессов обучения
  • Неасимптотическая теория скорости сходимости процессов обучения
    • Насколько высока скорость сходимости учебного процесса?
  • Теория управления обобщающей способностью процессов обучения
    • Как можно контролировать скорость сходимости ( обобщение способности) учебного процесса?
  • Теория построения обучающих машин
    • Как можно построить алгоритмы, контролирующие способность к обобщению?

VC Theory - одна из основных ветвей теория статистического обучения. Одно из его основных приложений в теории статистического обучения - обеспечение обобщение условия обучения алгоритмов. С этой точки зрения теория ВК связана с стабильность, который является альтернативным подходом к характеристике обобщения.

Кроме того, теория ВК и Размер ВК играют важную роль в теории эмпирические процессы, в случае процессов, индексированных классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге Слабая конвергенция и эмпирические процессы: в приложениях к статистике.[2]

Обзор теории ВК в эмпирических процессах

Справочная информация об эмпирических процессах

Позволять быть случайными элементами, определенными на измеримом пространстве . По любым меркам на , и любые измеримые функции , определять

Проблемы измеримости здесь будут проигнорированы, для получения более подробной технической информации см. [3]. Позволять - класс измеримых функций и определите:

Определите эмпирическую меру

куда δ здесь означает Мера Дирака. Эмпирическая мера индуцирует отображение предоставлено:

Теперь предположим п является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена ​​на определение классов для которых справедливы такие утверждения, как следующие:

То есть как ,

равномерно для всех .

В первом случае называется Гливенко-Кантелли класс, а в последнем случае (в предположении ) класс называется Донскер или же п-Донскер. Класс Донскера является вероятностным по Гливенко-Кантелли применением Теорема Слуцкого .

Эти утверждения верны для одного , по стандарту LLN, CLT аргументы в условиях регулярности, и трудность эмпирических процессов возникает из-за того, что совместные утверждения делаются для всех . Тогда интуитивно множество не может быть слишком большим, и, как оказывается, геометрия играет очень важную роль.

Один из способов измерения размера набора функций заключается в использовании так называемого покрывающие числа. Покровный номер

минимальное количество шаров необходимо покрыть набор (здесь, очевидно, предполагается, что существует основная норма на ). Энтропия - это логарифм числа покрытия.

Ниже приведены два достаточных условия, при которых можно доказать, что множество это Гливенко-Кантелли или Донскер.

Класс является п-Гливенко-Кантелли, если это п-меряется с конвертом F такой, что и удовлетворяет:

Следующее условие - разновидность знаменитого Теорема Дадли. Если - класс функций таких, что

тогда является п-Donsker для каждой вероятностной меры п такой, что . В последнем интеграле обозначения означают

.

Симметризация

Большинство аргументов о том, как связать эмпирический процесс, основываются на симметризации, максимальном и концентрационном неравенствах и цепочках. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена ​​здесь.

Рассмотрим эмпирический процесс:

Оказывается, существует связь между эмпирическим и следующим симметризованным процессом:

Симметризованный процесс - это Процесс Радемахера, условно по данным . Следовательно, это субгауссов процесс по Неравенство Хёффдинга.

Лемма (симметризация). Для каждого неубывающего выпуклого Φ: рр и класс измеримых функций ,

Доказательство леммы о симметризации основано на введении независимых копий исходных переменных (иногда называемый образец призрака) и заменяя этими копиями внутреннее ожидание ЛГС. После применения Неравенство Дженсена можно было ввести разные знаки (отсюда и название «симметризация») без изменения ожидания. Доказательство можно найти ниже из-за его поучительного характера.

Типичный способ доказательства эмпирических CLT: сначала используется симметризация, чтобы передать эмпирический процесс в а затем аргументируют условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.

Подключение VC

Оказывается, существует интересная связь между некоторыми комбинаторными свойствами множества и числа энтропии. Равномерные покрывающие числа можно контролировать с помощью понятия Классы множеств Вапника-Червоненкиса - или в ближайшее время Наборы ВК.

Рассмотрим коллекцию подмножеств пространства выборки . говорят выбрать определенное подмножество конечного множества если для некоторых . говорят разбить S если он выберет каждый из своих 2п подмножества. В VC-индекс (похожий на Размер ВК +1 за правильно выбранный набор классификаторов) из самый маленький п для которых нет набора размеров п разбит .

Лемма зауэра затем заявляет, что число подмножеств, выбранных VC-классом удовлетворяет:

Какое полиномиальное число подмножеств, а не экспоненциальное число. Интуитивно это означает, что из конечного VC-индекса следует, что имеет очевидную упрощенную структуру.

Аналогичную оценку можно показать (с другой постоянной, той же скоростью) для так называемого Классы подграфов VC. Для функции в подграф это подмножество такой, что: . Коллекция называется классом подграфа VC, если все подграфы образуют VC-класс.

Рассмотрим набор индикаторных функций в для дискретного эмпирического типа меры Q (или эквивалентно для любой вероятностной меры Q). Тогда можно показать, что весьма примечательно для :

Далее рассмотрим симметричная выпуклая оболочка набора : являясь набором функций формы с . Тогда если

для выпуклой оболочки :

Важным следствием этого факта является то, что

чего как раз достаточно, чтобы интеграл энтропии сходился, и, следовательно, класс будет п-Донскер.

Наконец, рассматривается пример класса VC-подграфа. Любое конечномерное векторное пространство измеримых функций VC-подграф индекса меньше или равен .

Существуют обобщения понятия класса подграфа VC, например есть понятие псевдоразмерности. Заинтересованный читатель может заглянуть в[4].

VC Inequality

Рассматривается аналогичная настройка, которая чаще встречается в машинное обучение. Позволять это пространство функций и . Функция называется классификатором. Позволять быть набором классификаторов. Как и в предыдущем разделе, определите коэффициент разрушения (также известная как функция роста):

Обратите внимание, что между каждой из функций в и множество, на котором функция равна 1. Таким образом, мы можем определить быть набором подмножеств, полученных из указанного выше отображения для каждого . Следовательно, в терминах предыдущего раздела коэффициент дробления точно равен

.

Эта эквивалентность вместе с Лемма Зауэра подразумевает, что будет полиномиальным от п, для достаточно больших п при условии, что сбор имеет конечный VC-индекс.

Позволять - наблюдаемый набор данных. Предположим, что данные генерируются неизвестным распределением вероятностей . Определять быть ожидаемым 0/1 проигрыш. Конечно с тех пор неизвестно вообще, нет доступа к . Тем не менее эмпирический риск, предоставленный:

конечно можно оценить. Тогда справедлива следующая Теорема:

Теорема (неравенство ВК)

Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:

На словах неравенство ВК означает, что по мере увеличения выборки при условии, что имеет конечный размер венчурного капитала, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. Обратите внимание, что обе правые части двух неравенств будут сходиться к 0 при условии, что полиномиально растет по п.

Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом.

но неудивительно, что идеи совпадают. Доказательство неравенства ВК (первая часть) опирается на симметризацию, а затем условно аргументирует данные, используя неравенства концентрации (в частности, Неравенство Хёффдинга ). Заинтересованный читатель может проверить книгу [5] Теоремы 12.4 и 12.5.

Рекомендации

  • ^ Вапник Владимир Н (2000). Природа статистической теории обучения. Информатика и статистика. Springer-Verlag. ISBN  978-0-387-98780-4.
  • Вапник Владимир Н (1989). Статистическая теория обучения. Wiley-Interscience. ISBN  978-0-471-03003-4.
  • ^ ван дер Ваарт, Аад В.; Веллнер, Джон А. (2000). Слабая конвергенция и эмпирические процессы: в приложениях к статистике (2-е изд.). Springer. ISBN  978-0-387-94640-5.
  • ^ Gyorfi, L .; Devroye, L .; Лугоши, Г. (1996). Вероятностная теория распознавания образов (1-е изд.). Springer. ISBN  978-0387946184.
  • См. Ссылки в статьях: Ричард М. Дадли, эмпирические процессы, Разрушенный набор.
  • ^ Поллард, Дэвид (1990). Эмпирические процессы: теория и приложения. Серия региональных конференций NSF-CBMS по вероятности и статистике, Том 2. ISBN  978-0-940600-16-4.
  • Bousquet, O .; Boucheron, S .; Лугоши, Г. (2004). «Введение в статистическую теорию обучения». У О. Буске; У. фон Люксбург; Г. Ратч (ред.). Расширенные лекции по машинному обучению. Конспект лекций по искусственному интеллекту. 3176. Springer. С. 169–207.
  • Вапник, В .; Червоненкис, А. (2004). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятн. Приложение. 16 (2): 264–280. Дои:10.1137/1116025.