Теория Вапника – Червоненкиса. - Vapnik–Chervonenkis theory
Часть серии по |
Машинное обучение и сбор данных |
---|
Площадки для машинного обучения |
Теория Вапника – Червоненкиса. (также известен как Теория ВК) была разработана в 1960–1990 гг. Владимир Вапник и Алексей Червоненкис. Теория - это форма теория вычислительного обучения, который пытается объяснить процесс обучения со статистической точки зрения.
Теория ВК связана с теория статистического обучения и чтобы эмпирические процессы. Ричард М. Дадли и Владимир Вапник, среди прочего, применили теорию ВК к эмпирические процессы.
Вступление
Теория венчурного капитала охватывает как минимум четыре части (как описано в Природа статистической теории обучения[1]):
- Теория последовательность процессов обучения
- Каковы (необходимые и достаточные) условия согласованности процесса обучения на основе минимизация эмпирического риска принцип?
- Неасимптотическая теория скорости сходимости процессов обучения
- Насколько высока скорость сходимости учебного процесса?
- Теория управления обобщающей способностью процессов обучения
- Как можно контролировать скорость сходимости ( обобщение способности) учебного процесса?
- Теория построения обучающих машин
- Как можно построить алгоритмы, контролирующие способность к обобщению?
VC Theory - одна из основных ветвей теория статистического обучения. Одно из его основных приложений в теории статистического обучения - обеспечение обобщение условия обучения алгоритмов. С этой точки зрения теория ВК связана с стабильность, который является альтернативным подходом к характеристике обобщения.
Кроме того, теория ВК и Размер ВК играют важную роль в теории эмпирические процессы, в случае процессов, индексированных классами VC. Возможно, это наиболее важные приложения теории ВК, которые используются для доказательства обобщения. Будут представлены несколько методов, которые широко используются в эмпирическом процессе и теории ВК. Обсуждение в основном основано на книге Слабая конвергенция и эмпирические процессы: в приложениях к статистике.[2]
Обзор теории ВК в эмпирических процессах
Справочная информация об эмпирических процессах
Позволять быть случайными элементами, определенными на измеримом пространстве . По любым меркам на , и любые измеримые функции , определять
Проблемы измеримости здесь будут проигнорированы, для получения более подробной технической информации см. [3]. Позволять - класс измеримых функций и определите:
Определите эмпирическую меру
куда δ здесь означает Мера Дирака. Эмпирическая мера индуцирует отображение предоставлено:
Теперь предположим п является лежащим в основе истинным распределением данных, которое неизвестно. Теория эмпирических процессов направлена на определение классов для которых справедливы такие утверждения, как следующие:
- униформа закон больших чисел:
- То есть как ,
- равномерно для всех .
- униформа Центральная предельная теорема:
В первом случае называется Гливенко-Кантелли класс, а в последнем случае (в предположении ) класс называется Донскер или же п-Донскер. Класс Донскера является вероятностным по Гливенко-Кантелли применением Теорема Слуцкого .
Эти утверждения верны для одного , по стандарту LLN, CLT аргументы в условиях регулярности, и трудность эмпирических процессов возникает из-за того, что совместные утверждения делаются для всех . Тогда интуитивно множество не может быть слишком большим, и, как оказывается, геометрия играет очень важную роль.
Один из способов измерения размера набора функций заключается в использовании так называемого покрывающие числа. Покровный номер
минимальное количество шаров необходимо покрыть набор (здесь, очевидно, предполагается, что существует основная норма на ). Энтропия - это логарифм числа покрытия.
Ниже приведены два достаточных условия, при которых можно доказать, что множество это Гливенко-Кантелли или Донскер.
Класс является п-Гливенко-Кантелли, если это п-меряется с конвертом F такой, что и удовлетворяет:
Следующее условие - разновидность знаменитого Теорема Дадли. Если - класс функций таких, что
тогда является п-Donsker для каждой вероятностной меры п такой, что . В последнем интеграле обозначения означают
- .
Симметризация
Большинство аргументов о том, как связать эмпирический процесс, основываются на симметризации, максимальном и концентрационном неравенствах и цепочках. Симметризация обычно является первым шагом доказательств, и, поскольку она используется во многих доказательствах машинного обучения для ограничения эмпирических функций потерь (включая доказательство неравенства ВК, которое обсуждается в следующем разделе), она представлена здесь.
Рассмотрим эмпирический процесс:
Оказывается, существует связь между эмпирическим и следующим симметризованным процессом:
Симметризованный процесс - это Процесс Радемахера, условно по данным . Следовательно, это субгауссов процесс по Неравенство Хёффдинга.
Лемма (симметризация). Для каждого неубывающего выпуклого Φ: р → р и класс измеримых функций ,
Доказательство леммы о симметризации основано на введении независимых копий исходных переменных (иногда называемый образец призрака) и заменяя этими копиями внутреннее ожидание ЛГС. После применения Неравенство Дженсена можно было ввести разные знаки (отсюда и название «симметризация») без изменения ожидания. Доказательство можно найти ниже из-за его поучительного характера.
Представьте "призрачный образец" быть независимыми копиями . Для фиксированных значений надо:
Следовательно, по Неравенство Дженсена:
Принимая ожидание в отношении дает:
Обратите внимание, что добавление знака минус перед термином не меняет RHS, потому что это симметричная функция и . Следовательно, RHS остается прежним при "возмущении знака":
для любого . Следовательно:
Наконец, используя сначала неравенство треугольника, а затем выпуклость дает:
Если два последних выражения справа совпадают, доказательство завершается.
Типичный способ доказательства эмпирических CLT: сначала используется симметризация, чтобы передать эмпирический процесс в а затем аргументируют условно данные, используя тот факт, что процессы Радемахера - это простые процессы с хорошими свойствами.
Подключение VC
Оказывается, существует интересная связь между некоторыми комбинаторными свойствами множества и числа энтропии. Равномерные покрывающие числа можно контролировать с помощью понятия Классы множеств Вапника-Червоненкиса - или в ближайшее время Наборы ВК.
Рассмотрим коллекцию подмножеств пространства выборки . говорят выбрать определенное подмножество конечного множества если для некоторых . говорят разбить S если он выберет каждый из своих 2п подмножества. В VC-индекс (похожий на Размер ВК +1 за правильно выбранный набор классификаторов) из самый маленький п для которых нет набора размеров п разбит .
Лемма зауэра затем заявляет, что число подмножеств, выбранных VC-классом удовлетворяет:
Какое полиномиальное число подмножеств, а не экспоненциальное число. Интуитивно это означает, что из конечного VC-индекса следует, что имеет очевидную упрощенную структуру.
Аналогичную оценку можно показать (с другой постоянной, той же скоростью) для так называемого Классы подграфов VC. Для функции в подграф это подмножество такой, что: . Коллекция называется классом подграфа VC, если все подграфы образуют VC-класс.
Рассмотрим набор индикаторных функций в для дискретного эмпирического типа меры Q (или эквивалентно для любой вероятностной меры Q). Тогда можно показать, что весьма примечательно для :
Далее рассмотрим симметричная выпуклая оболочка набора : являясь набором функций формы с . Тогда если
для выпуклой оболочки :
Важным следствием этого факта является то, что
чего как раз достаточно, чтобы интеграл энтропии сходился, и, следовательно, класс будет п-Донскер.
Наконец, рассматривается пример класса VC-подграфа. Любое конечномерное векторное пространство измеримых функций VC-подграф индекса меньше или равен .
Брать точки . Векторы:
находятся в п − 1 мерное подпространство рп. Брать а ≠ 0, вектор, ортогональный этому подпространству. Следовательно:
Рассмотрим множество . Этот набор нельзя выбрать, так как если есть такой, что это означало бы, что LHS строго положительный, но RHS неположительный.
Существуют обобщения понятия класса подграфа VC, например есть понятие псевдоразмерности. Заинтересованный читатель может заглянуть в[4].
VC Inequality
Рассматривается аналогичная настройка, которая чаще встречается в машинное обучение. Позволять это пространство функций и . Функция называется классификатором. Позволять быть набором классификаторов. Как и в предыдущем разделе, определите коэффициент разрушения (также известная как функция роста):
Обратите внимание, что между каждой из функций в и множество, на котором функция равна 1. Таким образом, мы можем определить быть набором подмножеств, полученных из указанного выше отображения для каждого . Следовательно, в терминах предыдущего раздела коэффициент дробления точно равен
- .
Эта эквивалентность вместе с Лемма Зауэра подразумевает, что будет полиномиальным от п, для достаточно больших п при условии, что сбор имеет конечный VC-индекс.
Позволять - наблюдаемый набор данных. Предположим, что данные генерируются неизвестным распределением вероятностей . Определять быть ожидаемым 0/1 проигрыш. Конечно с тех пор неизвестно вообще, нет доступа к . Тем не менее эмпирический риск, предоставленный:
конечно можно оценить. Тогда справедлива следующая Теорема:
Теорема (неравенство ВК)
Для двоичной классификации и функции потерь 0/1 мы имеем следующие границы обобщения:
На словах неравенство ВК означает, что по мере увеличения выборки при условии, что имеет конечный размер венчурного капитала, эмпирический риск 0/1 становится хорошим показателем ожидаемого риска 0/1. Обратите внимание, что обе правые части двух неравенств будут сходиться к 0 при условии, что полиномиально растет по п.
Связь между этой структурой и структурой эмпирического процесса очевидна. Здесь мы имеем дело с модифицированным эмпирическим процессом.
но неудивительно, что идеи совпадают. Доказательство неравенства ВК (первая часть) опирается на симметризацию, а затем условно аргументирует данные, используя неравенства концентрации (в частности, Неравенство Хёффдинга ). Заинтересованный читатель может проверить книгу [5] Теоремы 12.4 и 12.5.
Рекомендации
- ^ Вапник Владимир Н (2000). Природа статистической теории обучения. Информатика и статистика. Springer-Verlag. ISBN 978-0-387-98780-4.
- Вапник Владимир Н (1989). Статистическая теория обучения. Wiley-Interscience. ISBN 978-0-471-03003-4.
- ^ ван дер Ваарт, Аад В.; Веллнер, Джон А. (2000). Слабая конвергенция и эмпирические процессы: в приложениях к статистике (2-е изд.). Springer. ISBN 978-0-387-94640-5.
- ^ Gyorfi, L .; Devroye, L .; Лугоши, Г. (1996). Вероятностная теория распознавания образов (1-е изд.). Springer. ISBN 978-0387946184.
- См. Ссылки в статьях: Ричард М. Дадли, эмпирические процессы, Разрушенный набор.
- ^ Поллард, Дэвид (1990). Эмпирические процессы: теория и приложения. Серия региональных конференций NSF-CBMS по вероятности и статистике, Том 2. ISBN 978-0-940600-16-4.
- Bousquet, O .; Boucheron, S .; Лугоши, Г. (2004). «Введение в статистическую теорию обучения». У О. Буске; У. фон Люксбург; Г. Ратч (ред.). Расширенные лекции по машинному обучению. Конспект лекций по искусственному интеллекту. 3176. Springer. С. 169–207.
- Вапник, В .; Червоненкис, А. (2004). «О равномерной сходимости относительных частот событий к их вероятностям». Теория вероятн. Приложение. 16 (2): 264–280. Дои:10.1137/1116025.