Обучение Оккама - Occam learning

В теория вычислительного обучения, Обучение Оккама представляет собой модель алгоритмического обучения, в которой цель обучаемого - получить сжатое представление полученных данных обучения. Это тесно связано с возможно приблизительно правильное (PAC) обучение, где учащийся оценивается по его предсказательной способности тестового набора.

Обучаемость Оккама подразумевает обучение PAC, и для самых разных концептуальные классы, верно и обратное: обучаемость PAC предполагает обучаемость по Оккаму.

Вступление

Обучение Оккама названо в честь бритва Оккама, который является принципом, согласно которому при прочих равных условиях следует отдавать предпочтение более короткому объяснению наблюдаемых данных перед более длинным объяснением. Теория обучения Оккама является формальным и математическим обоснованием этого принципа. Впервые это было показано Блюмером и др.[1] что обучение Оккама подразумевает обучение PAC, которое является стандартной моделью обучения в теории вычислительного обучения. Другими словами, скупость (выходной гипотезы) следует предсказательная сила.

Определение обучения Оккама

Лаконичность концепции в концептуальный класс можно выразить длиной кратчайшей битовой строки, которая может представлять в . Обучение Оккама связывает лаконичность вывода алгоритма обучения с его предсказательной способностью на невидимых данных.

Позволять и быть классами концептов, содержащими целевые концепции и гипотезы соответственно. Тогда для констант и , алгоритм обучения является -Алгоритм Оккама за с помощью если и только если задан набор из образцы, маркированные в соответствии с концепцией , выводит гипотезу такой, что

  • согласуется с на (то есть, ), и
  • [2][1]

куда максимальная длина любого образца . Алгоритм Оккама называется эффективный если он выполняется за полиномиальное время в , , и Мы говорим концептуальный класс является Оккам обучаемый относительно класса гипотез если существует эффективный алгоритм Оккама для с помощью

Связь между обучением Оккама и PAC

Обучаемость Оккама подразумевает обучаемость PAC, как следующая теорема Блюмера и др.[2] показывает:

Теорема (Обучение Оккама подразумевает обучение PAC)

Позволять быть эффективным -Алгоритм Оккама для с помощью . Тогда существует постоянная такой, что для любого , для любого распределения , данный образцы взяты из и помечены в соответствии с концепцией длины бит каждый, алгоритм выведет гипотезу такой, что с вероятностью не менее .

Здесь, по отношению к концепции и распространение . Это означает, что алгоритм также является учеником PAC для концептуального класса с использованием класса гипотез . Несколько более общая формулировка выглядит следующим образом:

Теорема (Обучение Оккама подразумевает обучение PAC, кардинальная версия)

Позволять . Позволять быть таким алгоритмом, что, учитывая образцы взяты из фиксированного, но неизвестного распределения и помечены в соответствии с концепцией длины бит каждый, выводит гипотезу что согласуется с маркированными образцами. Тогда существует постоянная так что если , тогда гарантированно выводит гипотезу такой, что с вероятностью не менее .

Хотя приведенные выше теоремы показывают, что обучения Оккама достаточно для обучения PAC, они ничего не говорят о необходимость. Борд и Питт показывают, что для самых разных концептуальных классов обучение Оккаму действительно необходимо для обучения PAC.[3] Они доказали, что для любого концептуального класса полиномиально замкнутые относительно списков исключений, Обучаемость PAC предполагает существование алгоритма Оккама для этого класса концептов. Классы концепций, которые полиномиально замкнуты в списках исключений, включают булевы формулы, схемы, детерминированные конечные автоматы, списки решений, деревья решений и другие геометрически определенные классы понятий.

Концептуальный класс полиномиально замкнуто относительно списков исключений, если существует алгоритм с полиномиальным временем так что, когда дано представление концепции и конечный список из исключения, выводит представление концепции так что концепции и согласен кроме набора .

Доказательство того, что обучение Оккама подразумевает обучение PAC

Сначала докажем версию Cardinality. Назовите гипотезу Плохо если , где снова относительно истинной концепции и основное распределение . Вероятность того, что набор образцов согласуется с самое большее , независимостью образцов. Согласно оценке объединения, вероятность того, что существует неверная гипотеза в самое большее , что меньше если . Это завершает доказательство второй теоремы выше.

Используя вторую теорему, мы можем доказать первую теорему. Поскольку у нас есть -Алгоритм Оккама, это означает, что любая гипотеза выводится может быть представлено не более чем биты, и таким образом . Это меньше чем если мы установим для некоторой постоянной . Таким образом, по теореме о версии мощности, выведет непротиворечивую гипотезу с вероятностью не менее . Это завершает доказательство первой теоремы выше.

Повышение сложности выборки для общих проблем

Хотя обучаемость Оккама и PAC эквивалентна, фреймворк Оккама можно использовать для получения более жестких границ выборочной сложности классических задач, включая конъюнкции,[2] соединения с несколькими релевантными переменными,[4] и списки решений.[5]

Расширения

Алгоритмы Оккама также оказались успешными для обучения PAC при наличии ошибок,[6][7] вероятностные концепции,[8] функциональное обучение[9] и марковские несамостоятельные примеры.[10]

Смотрите также

Рекомендации

  1. ^ а б Блумер А., Эренфойхт А., Хаусслер Д. и Вармут М. К. (1987). бритва Оккама. Информационные письма, 24 (6), 377-380.
  2. ^ а б c Кернс, М. Дж., И Вазирани, У. В. (1994). Введение в теорию вычислительного обучения, глава 2. MIT press.
  3. ^ Борд Р. и Питт Л. (1990, апрель). О необходимости алгоритмов Оккама. В материалах двадцать второго ежегодного симпозиума ACM по теории вычислений (стр. 54-63). ACM.
  4. ^ Хаусслер, Д. (1988). Количественная оценка индуктивной предвзятости: алгоритмы обучения ИИ и структура обучения Valiant В архиве 2013-04-12 в Wayback Machine. Искусственный интеллект, 36 (2), 177-221.
  5. ^ Ривест, Р. Л. (1987). Списки обучающих решений. Машинное обучение, 2(3), 229-246.
  6. ^ Англуин Д. и Лэрд П. (1988). Учимся на шумных примерах. Машинное обучение, 2 (4), 343-370.
  7. ^ Кирнс, М., и Ли, М. (1993). Обучение при наличии вредоносных ошибок. SIAM Journal on Computing, 22 (4), 807-837.
  8. ^ Кирнс, М. Дж., И Шапир, Р. Э. (1990, октябрь). Эффективное изучение вероятностных концепций без распределения. В «Основах компьютерных наук», 1990. Труды, 31-й ежегодный симпозиум по (стр. 382-391). IEEE.
  9. ^ Натараджан, Б. К. (1993, август). Бритва Оккама для функций. В материалах шестой ежегодной конференции по теории вычислительного обучения (стр. 370-376). ACM.
  10. ^ Олдос Д. и Вазирани У. (1990, октябрь). Марковское расширение модели обучения Valiant. В «Основах компьютерных наук», 1990. Труды, 31-й ежегодный симпозиум по (стр. 392–396). IEEE.