Сложность образца - Sample complexity

В сложность образца из машинное обучение Алгоритм представляет собой количество обучающих выборок, необходимых ему для успешного изучения целевой функции.

Точнее, сложность выборки - это количество обучающих выборок, которые нам нужно предоставить алгоритму, так что функция, возвращаемая алгоритмом, находится в пределах произвольно малой ошибки наилучшей возможной функции с вероятностью, произвольно близкой к 1.

Возможны два варианта сложности выборки:

  • Слабый вариант фиксирует определенное распределение ввода-вывода;
  • Сильный вариант принимает сложность выборки наихудшего случая по всем распределениям ввода-вывода.

Теорема о запрете бесплатного обеда, обсуждаемая ниже, доказывает, что, как правило, сильная сложность выборки бесконечна, т.е. что не существует алгоритма, который мог бы изучить глобально оптимальную целевую функцию с использованием конечного числа обучающих выборок.

Однако, если нас интересует только определенный класс целевых функций (например, только линейные функции), тогда сложность выборки конечна и линейно зависит от Размер ВК по классу целевых функций.[1]

Определение

Позволять быть пространством, которое мы называем входным пространством, и - пространство, которое мы называем выходным пространством, и пусть обозначить продукт . Например, при настройке двоичной классификации обычно является конечномерным векторным пространством и это набор .

Исправьте пространство гипотез функций . Алгоритм обучения окончен вычислимая карта из к . Другими словами, это алгоритм, который принимает на вход конечную последовательность обучающих выборок и выводит функцию из к . Типичные алгоритмы обучения включают: минимизация эмпирического риска, без или с Тихоновская регуляризация.

Исправить функцию потерь , например, квадрат потерь , куда . Для данного распределения на , то ожидаемый риск гипотезы (функции) является

В нашей обстановке у нас есть , куда алгоритм обучения и представляет собой последовательность векторов, которые нарисованы независимо от . Определите оптимальный риск

Набор , для каждого . Обратите внимание, что это случайная переменная и зависит от случайной величины , взятый из распределения . Алгоритм называется последовательный если вероятностно сходится к . Другими словами, для всех , существует натуральное число , так что для всех , у нас есть

В сложность образца из тогда минимальный для которого это верно, как функция , и . Запишем сложность образца как чтобы подчеркнуть, что это значение зависит от , и . Если является не соответствует, то положим . Если существует алгоритм, для которого конечно, то мы говорим, что пространство гипотез является обучаемый.

Другими словами, сложность выборки определяет степень согласованности алгоритма: при заданной точности и уверенность , нужно пробовать точки данных, чтобы гарантировать, что риск выходной функции находится в пределах наилучшего из возможных, с вероятностью не менее .[2]

В возможно приблизительно правильное (PAC) обучение, возникает вопрос, является ли сложность выборки многочлен, то есть ограничен полиномом от и . Если является полиномом для некоторого алгоритма обучения, то говорят, что пространство гипотез является PAC-обучаемый. Учтите, что это более сильное понятие, чем возможность научиться.

Неограниченное пространство гипотез: бесконечная сложность выборки

Можно спросить, существует ли алгоритм обучения, в котором сложность выборки конечна в строгом смысле, то есть существует ограничение на количество необходимых выборок, чтобы алгоритм мог изучить любое распределение в пространстве ввода-вывода с помощью указанная целевая ошибка. Более формально спрашивают, существует ли алгоритм обучения , так что для всех , существует натуральное число такой, что для всех , у нас есть

куда , с как указано выше. В Теорема об отсутствии бесплатного обеда говорит, что без ограничений на пространство гипотез , это не так, т.е. всегда существуют «плохие» распределения, для которых сложность выборки сколь угодно велика.[1]

Таким образом, чтобы сделать заявления о скорости сходимости величины

нужно либо

  • ограничить пространство вероятностных распределений , например с помощью параметрического подхода, или
  • ограничить пространство гипотез , как и в подходах без распространения.

Ограниченное пространство гипотез: конечная сложность выборки

Последний подход приводит к таким концепциям, как Размер ВК и Радемахерская сложность которые контролируют сложность пространства . Меньшее пространство гипотез вносит больше предвзятости в процесс вывода, а это означает, что может быть больше, чем максимально возможный риск в большем пространстве. Однако, ограничивая сложность пространства гипотез, алгоритм может создавать более единообразно согласованные функции. Этот компромисс приводит к концепции регуляризация.[2]

Это теорема из Теория ВК что следующие три утверждения эквивалентны для пространства гипотез :

  1. можно изучить с помощью PAC.
  2. Размер VC конечно.
  3. униформа Класс Гливенко-Кантелли.

Это дает возможность доказать, что определенные пространства гипотез можно выучить с помощью PAC и, соответственно, изучить.

Пример пространства гипотез, изучаемого с помощью PAC

, и разреши - пространство аффинных функций на , то есть функции вида для некоторых . Это линейная классификация со смещенной задачей обучения. Теперь обратите внимание, что четыре компланарные точки квадрата не могут быть разрушены какой-либо аффинной функцией, поскольку никакая аффинная функция не может быть положительной на двух диагонально противоположных вершинах и отрицательной на оставшихся двух. Таким образом, размер VC является , так что конечно. Из приведенной выше характеристики классов, изучаемых PAC, следует, что является PAC-обучаемым, и, соответственно, обучаемым.

Границы сложности выборки

Предполагать - это класс бинарных функций (функций для ). Потом, является -PAC-обучаемый с выборкой размера:[3]

куда это Размер ВК из .Кроме того, любые -PAC-алгоритм обучения для должен иметь сложность образца:[4]
Таким образом, сложность выборки является линейной функцией Размер ВК пространства гипотез.

Предполагать является классом действительных функций с диапазоном в . Потом, является -PAC-обучаемый с выборкой размера:[5][6]

куда является Псевдо-измерение Полларда из .

Другие настройки

В дополнение к настройке контролируемого обучения, сложность выборки важна для полу-контролируемое обучение проблемы в том числе активное изучение,[7] где алгоритм может запрашивать метки для специально выбранных входов, чтобы снизить стоимость получения множества меток. Концепция сложности выборки также проявляется в обучение с подкреплением,[8] онлайн обучение, и неконтролируемые алгоритмы, например за изучение словаря.[9]

Эффективность в робототехнике

Высокая сложность выборки означает, что для запуска Поиск в дереве Монте-Карло.[10] Это равно a модель бесплатно поиск грубой силы в пространстве состояний. Напротив, высокоэффективный алгоритм имеет низкую сложность выборки.[11] Возможные методы уменьшения сложности выборки: метрическое обучение[12] и обучение с подкреплением на основе моделей.[13]

Рекомендации

  1. ^ а б Вапник, Владимир (1998), Статистическая теория обучения, Нью-Йорк: Wiley.
  2. ^ а б Росаско, Лоренцо (2014), Последовательность, обучаемость и регуляризация, Конспект лекций для курса MIT 9.520.
  3. ^ Стив Ханнеке (2016). «Оптимальная выборочная сложность обучения PAC». J. Mach. Учиться. Res. 17 (1): 1319–1333.
  4. ^ Эренфойхт, Анджей; Хаусслер, Дэвид; Кирнс, Майкл; Валиант, Лесли (1989). «Общая нижняя граница количества примеров, необходимых для обучения». Информация и вычисления. 82 (3): 247. Дои:10.1016/0890-5401(89)90002-3.
  5. ^ Энтони, Мартин; Бартлетт, Питер Л. (2009). Обучение нейронной сети: теоретические основы. ISBN  9780521118620.
  6. ^ Моргенштерн, Джейми; Roughgarden, Тим (2015). О псевдоразмерности почти оптимальных аукционов. НИПС. Curran Associates. С. 136–144. arXiv:1506.03684.
  7. ^ Балкан, Мария-Флорина; Ханнеке, Стив; Вортман Воган, Дженнифер (2010). «Настоящая примерная сложность активного обучения». Машинное обучение. 80 (2–3): 111–139. Дои:10.1007 / s10994-010-5174-у.
  8. ^ Какаде, Шам (2003), О типовой сложности обучения с подкреплением (PDF), Докторская диссертация, Университетский колледж Лондона: отдел вычислительной нейробиологии Гэтсби.
  9. ^ Вайнсенчер, Даниил; Маннор, Ши; Брукштейн, Альфред (2011). «Примерная сложность изучения словаря» (PDF). Журнал исследований в области машинного обучения. 12: 3259–3281.
  10. ^ Кауфманн, Эмили и Кулен, Воутер М (2017). Поиск в дереве Монте-Карло по идентификации наилучшего плеча. Достижения в системах обработки нейронной информации. С. 4897–4906.CS1 maint: несколько имен: список авторов (связь)
  11. ^ Фидельман, Пегги и Стоун, Питер (2006). Щипок за подбородок: пример обучения навыкам на роботе с ногами. Чемпионат мира по футболу среди роботов. Springer. С. 59–71.CS1 maint: несколько имен: список авторов (связь)
  12. ^ Верма, Накул и Брэнсон, Кристин (2015). Пример сложности изучения дистанционных метрик Махаланобиса. Достижения в области нейронных систем обработки информации. С. 2584–2592.CS1 maint: несколько имен: список авторов (связь)
  13. ^ Курутах, Танард и Клавера, Игнаси и Дуан, Ян и Тамар, Авив и Аббиль, Питер (2018). «Оптимизация политики доверительного региона модели-ансамбля». arXiv:1802.10592 [cs.LG ].CS1 maint: несколько имен: список авторов (связь)