Выборка Томпсона - Википедия - Thompson sampling

Выборка Томпсона,^[1]^[2] названный в честь Уильяма Р. Томпсона, это эвристика для выбора действий, которая решает дилемму разведки-эксплуатации в многорукий бандит проблема. Он состоит в выборе действия, которое максимизирует ожидаемую награду по отношению к случайно выбранному убеждению.

Описание

Рассмотрим набор контекстов ${ displaystyle { mathcal {X}}}$ , набор действий ${ displaystyle { mathcal {A}}}$ и награды в ${ Displaystyle mathbb {R}}$ . В каждом раунде игрок получает контекст ${ displaystyle x in { mathcal {X}}}$ , играет действие ${ displaystyle a in { mathcal {A}}}$ и получает награду ${ Displaystyle г в mathbb {R}}$ следование распределению, которое зависит от контекста и выданного действия. Цель игрока состоит в том, чтобы выполнять действия, направленные на максимальное увеличение совокупных наград.

Элементы выборки Томпсона следующие:

функция правдоподобия ${ Displaystyle Р (г | тета, а, х)}$ ;
множество ${ displaystyle Theta}$ параметров ${ displaystyle theta}$ распределения ${ displaystyle r}$ ;
предварительное распространение ${ Displaystyle Р ( тета)}$ по этим параметрам;
тройняшки прошлых наблюдений ${ Displaystyle { mathcal {D}} = {(х; а; г) }}$ ;
апостериорное распределение ${ Displaystyle P ( theta | { mathcal {D}}) propto P ({ mathcal {D}} | theta) P ( theta)}$ , куда ${ Displaystyle Р ({ mathcal {D}} | theta)}$ - функция правдоподобия.

Выборка Томпсона заключается в воспроизведении действия ${ displaystyle a ^ { ast} in { mathcal {A}}}$ в зависимости от вероятности того, что он максимизирует ожидаемую награду, т.е. действие ${ displaystyle a ^ { ast}}$ выбирается с вероятностью

{ displaystyle int mathbb {I} left [ mathbb {E} (r | a ^ { ast}, x, theta) = max _ {a '} mathbb {E} (r | a ', x, theta) right] P ( theta | { mathcal {D}}) d theta,}

куда ${ displaystyle mathbb {I}}$ это индикаторная функция.

На практике правило реализуется путем выборки в каждом раунде параметров ${ displaystyle theta ^ { ast}}$ от заднего ${ Displaystyle Р ( тета | { mathcal {D}})}$ , и выбирая действие ${ displaystyle a ^ { ast}}$ что максимизирует ${ Displaystyle mathbb {E} [г | theta ^ { ast}, a ^ { ast}, x]}$ , т.е. ожидаемое вознаграждение с учетом выбранных параметров, действия и текущего контекста. Концептуально это означает, что игрок случайным образом реализует свои убеждения в каждом раунде в соответствии с апостериорным распределением, а затем действует оптимально в соответствии с ними. В большинстве практических приложений поддержание и выборка из апостериорного распределения по моделям обременительны с вычислительной точки зрения. Таким образом, отбор проб Томпсона часто используется вместе с методами приблизительного отбора проб.^[2]

История

Отбор проб Томпсона был первоначально описан Томпсоном в 1933 году.^[1]. Впоследствии он неоднократно открывался заново независимо в контексте проблем многоруких бандитов.^[3]^[4]^[5]^[6]^[7]^[8] Первое доказательство сходимости в случае бандита было показано в 1997 году.^[3] Первое приложение к Марковские процессы принятия решений был в 2000 году.^[5] Родственный подход (см. Правило байесовского контроля ) был опубликован в 2010 году.^[4] В 2010 году также было показано, что выборка Томпсона мгновенно самокорректирующийся.^[8] Результаты асимптотической сходимости для контекстных бандитов были опубликованы в 2011 году.^[6] В настоящее время выборка Томпсона широко используется для решения многих задач онлайн-обучения: выборка Томпсона также применяется для A / B-тестирования в дизайне веб-сайтов и онлайн-рекламе;^[9] Выборка Томпсона стала основой для ускоренного обучения децентрализованному принятию решений;^[10] Двойной отбор проб Томпсона (D-TS) ^[11] Предложен алгоритм дуэли бандитов, вариант традиционного МАБ, где обратная связь поступает в формате попарного сравнения.

Отношение к другим подходам

Соответствие вероятности

Сопоставление вероятностей - это стратегия принятия решений, в которой прогнозы членства в классе пропорциональны базовым ставкам класса. Таким образом, если в обучающем наборе положительные примеры наблюдаются в 60% случаев, а отрицательные примеры наблюдаются в 40% случаев, наблюдатель, использующий стратегию сопоставления вероятностей, предсказывает (для немаркированных примеров) метку класса «положительный». в 60% случаев и метка класса «негативный» в 40% случаев.

Правило байесовского контроля

Обобщение выборки Томпсона на произвольные динамические среды и причинные структуры, известные как Правило байесовского контроля, было показано, что это оптимальное решение проблемы адаптивного кодирования с действиями и наблюдениями.^[4] В этой формулировке агент концептуализируется как смесь набора поведений. Когда агент взаимодействует со своей средой, он изучает причинные свойства и принимает поведение, которое минимизирует относительную энтропию к поведению с наилучшим предсказанием поведения окружающей среды. Если это поведение было выбрано в соответствии с принципом максимальной ожидаемой полезности, то асимптотическое поведение правила байесовского управления соответствует асимптотическому поведению совершенно рационального агента.

Настройка выглядит следующим образом. Позволять ${ displaystyle a_ {1}, a_ {2}, ldots, a_ {T}}$ быть действиями, выданными агентом в срок ${ displaystyle T}$ , и разреши ${ displaystyle o_ {1}, o_ {2}, ldots, o_ {T}}$ быть наблюдениями, собранными агентом до времени ${ displaystyle T}$ . Затем агент выдает действие ${ displaystyle a_ {T + 1}}$ с вероятностью:^[4]

{ displaystyle P (a_ {T + 1} | { hat {a}} _ {1: T}, o_ {1: T}),}

где "шляпа" - обозначение ${ displaystyle { hat {a}} _ {t}}$ обозначает тот факт, что ${ displaystyle a_ {t}}$ является причинным вмешательством (см. Причинно-следственная связь ), а не обычное наблюдение. Если агент придерживается убеждений ${ displaystyle theta in Theta}$ над его поведением, то правило байесовского контроля становится

{ displaystyle P (a_ {T + 1} | { hat {a}} _ {1: T}, o_ {1: T}) = int _ { Theta} P (a_ {T + 1} | theta, { hat {a}} _ {1: T}, o_ {1: T}) P ( theta | { hat {a}} _ {1: T}, o_ {1: T}) , d theta}

,

куда ${ displaystyle P ( theta | { hat {a}} _ {1: T}, o_ {1: T})}$ - апостериорное распределение по параметру ${ displaystyle theta}$ данные действия ${ displaystyle a_ {1: T}}$ и наблюдения ${ displaystyle o_ {1: T}}$ .

На практике байесовский контроль представляет собой выборку на каждом временном шаге параметра ${ displaystyle theta ^ { ast}}$ из апостериорного распределения ${ displaystyle P ( theta | { hat {a}} _ {1: T}, o_ {1: T})}$ , где апостериорное распределение вычисляется с использованием правила Байеса только с учетом (причинной) вероятности наблюдений ${ displaystyle o_ {1}, o_ {2}, ldots, o_ {T}}$ и игнорирование (причинной) вероятности действий ${ displaystyle a_ {1}, a_ {2}, ldots, a_ {T}}$ , а затем путем выборки действия ${ displaystyle a_ {T + 1} ^ { ast}}$ из раздачи действий ${ displaystyle P (a_ {T + 1} | theta ^ { ast}, { hat {a}} _ {1: T}, o_ {1: T})}$ .

Алгоритмы верхней доверительной границы (UCB)

Алгоритмы выборки Томпсона и верхней доверительной границы имеют общее фундаментальное свойство, лежащее в основе многих их теоретических гарантий. Грубо говоря, оба алгоритма распределяют исследовательские усилия на действия, которые могут быть оптимальными и в этом смысле «оптимистичными». Используя это свойство, можно преобразовать границы сожаления, установленные для алгоритмов UCB, в байесовские границы сожаления для выборки Томпсона.^[12] или объединить анализ сожалений для обоих этих алгоритмов и многих классов проблем.^[13]

Рекомендации

^ ^а ^б Томпсон, Уильям Р. «О вероятности того, что одна неизвестная вероятность превышает другую с учетом свидетельств двух образцов». Биометрика, 25(3–4):285–294, 1933.
^ ^а ^б Дэниел Дж. Руссо, Бенджамин Ван Рой, Аббас Казеруни, Ян Осбанд и Чжэн Вен (2018), «Учебник по выборке Томпсона», Основы и тенденции в машинном обучении: Vol. 11: No. 1, стр. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
^ ^а ^б Дж. Вятт. Исследование и вывод при обучении на основе подкрепления. Кандидат наук. защитил диссертацию на кафедре искусственного интеллекта Эдинбургского университета. Март 1997 г.
^ ^а ^б ^c ^d Ортега П.А. и Браун Д.А. «Принцип минимальной относительной энтропии для обучения и действий», Журнал исследований искусственного интеллекта, 38, страницы 475–511, 2010.
^ ^а ^б M. J. A. Strens. "Байесовская система обучения с подкреплением", Материалы семнадцатой международной конференции по машинному обучению, Стэнфордский университет, Калифорния, 29 июня - 2 июля 2000 г. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.140.1701
^ ^а ^б Б. С. Мэй, Б. С., Н. Корда, А. Ли и Д. С. Лесли. «Оптимистическая байесовская выборка в контекстно-бандитских проблемах». Технический отчет, Статистическая группа, Департамент математики, Бристольский университет, 2011 г.
^ Шапель, Оливье и Лихонг Ли. «Эмпирическая оценка выборки Томпсона». Достижения в области нейронных систем обработки информации. 2011 г.http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling
^ ^а ^б О.-К. Гранмо. "Решение задач двурукого бандита Бернулли с помощью байесовского обучающего автомата", Международный журнал интеллектуальных вычислений и кибернетики, 3 (2), 2010, 207-234.
^ Ян Кларк. «Пропорциональное A / B-тестирование», 22 сентября 2011 г., http://blog.locut.us/2011/09/22/proportionate-ab-testing/
^ Granmo, O.C .; Глимсдал, С. (2012). «Ускоренное байесовское обучение для децентрализованного принятия решений на основе двурукого бандита с приложениями к игре Goore Game». Прикладной интеллект. 38 (4): 479–488. Дои:10.1007 / s10489-012-0346-z. HDL:11250/137969.
^ Ву, Хуасень; Лю, Синь; Срикант, Р (2016), Двойная выборка Томпсона для дуэлянтных бандитов, arXiv:1604.07101, Bibcode:2016arXiv160407101W
^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2014), «Обучение оптимизации с помощью апостериорной выборки», «Математика исследования операций», Vol. 39, No. 4, pp. 1221-1243, 2014. https://pubsonline.informs.org/doi/abs/10.1287/moor.2014.0650
^ Дэниел Дж. Руссо и Бенджамин Ван Рой (2013), «Измерение ускользания и примерная сложность оптимистического исследования», «Достижения в системах обработки нейронной информации» 26, стр. 2256-2264. http://papers.nips.cc/paper/4909-eluder-dimension-and-the-sample-complexity-of-optimistic-exploration.pdf

[ref1-1] а ^б Томпсон, Уильям Р. «О вероятности того, что одна неизвестная вероятность превышает другую с учетом свидетельств двух образцов». Биометрика, 25(3–4):285–294, 1933.

[FnTTutorial-2] а ^б Дэниел Дж. Руссо, Бенджамин Ван Рой, Аббас Казеруни, Ян Осбанд и Чжэн Вен (2018), «Учебник по выборке Томпсона», Основы и тенденции в машинном обучении: Vol. 11: No. 1, стр. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf

[ref2-3] а ^б Дж. Вятт. Исследование и вывод при обучении на основе подкрепления. Кандидат наук. защитил диссертацию на кафедре искусственного интеллекта Эдинбургского университета. Март 1997 г.

[ref5-4] а ^б ^c ^d Ортега П.А. и Браун Д.А. «Принцип минимальной относительной энтропии для обучения и действий», Журнал исследований искусственного интеллекта, 38, страницы 475–511, 2010.

[ref6-5] а ^б M. J. A. Strens. "Байесовская система обучения с подкреплением", Материалы семнадцатой международной конференции по машинному обучению, Стэнфордский университет, Калифорния, 29 июня - 2 июля 2000 г. http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.140.1701

[ref4-6] а ^б Б. С. Мэй, Б. С., Н. Корда, А. Ли и Д. С. Лесли. «Оптимистическая байесовская выборка в контекстно-бандитских проблемах». Технический отчет, Статистическая группа, Департамент математики, Бристольский университет, 2011 г.

[ref3-7] Шапель, Оливье и Лихонг Ли. «Эмпирическая оценка выборки Томпсона». Достижения в области нейронных систем обработки информации. 2011 г.http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling

[ref7-8] а ^б О.-К. Гранмо. "Решение задач двурукого бандита Бернулли с помощью байесовского обучающего автомата", Международный журнал интеллектуальных вычислений и кибернетики, 3 (2), 2010, 207-234.

[ref9-9] Ян Кларк. «Пропорциональное A / B-тестирование», 22 сентября 2011 г., http://blog.locut.us/2011/09/22/proportionate-ab-testing/

[ref8-10] Granmo, O.C .; Глимсдал, С. (2012). «Ускоренное байесовское обучение для децентрализованного принятия решений на основе двурукого бандита с приложениями к игре Goore Game». Прикладной интеллект. 38 (4): 479–488. Дои:10.1007 / s10489-012-0346-z. HDL:11250/137969.

[Wu2016DTS-11] Ву, Хуасень; Лю, Синь; Срикант, Р (2016), Двойная выборка Томпсона для дуэлянтных бандитов, arXiv:1604.07101, Bibcode:2016arXiv160407101W

[RussoVanRoy2014-12] Дэниел Дж. Руссо и Бенджамин Ван Рой (2014), «Обучение оптимизации с помощью апостериорной выборки», «Математика исследования операций», Vol. 39, No. 4, pp. 1221-1243, 2014. https://pubsonline.informs.org/doi/abs/10.1287/moor.2014.0650

[RussoVanRoy2013-13] Дэниел Дж. Руссо и Бенджамин Ван Рой (2013), «Измерение ускользания и примерная сложность оптимистического исследования», «Достижения в системах обработки нейронной информации» 26, стр. 2256-2264. http://papers.nips.cc/paper/4909-eluder-dimension-and-the-sample-complexity-of-optimistic-exploration.pdf

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]