Стохастическое приближение - Stochastic approximation

Стохастическое приближение методы - это семейство итерационные методы обычно используется для поиск корней проблемы или для оптимизация проблемы. Рекурсивные правила обновления методов стохастической аппроксимации могут использоваться, среди прочего, для решения линейных систем, когда собранные данные искажены шумом, или для аппроксимации крайние значения функций, которые нельзя вычислить напрямую, а можно только оценить с помощью зашумленных наблюдений.

Вкратце, алгоритмы стохастической аппроксимации имеют дело с функцией вида что является ожидаемым значением функции в зависимости от случайная переменная . Цель состоит в том, чтобы восстановить свойства такой функции не оценивая его напрямую. Вместо этого алгоритмы стохастической аппроксимации используют случайные выборки эффективно аппроксимировать свойства такие как нули или экстремумы.

В последнее время стохастические приближения нашли широкое применение в области статистики и машинного обучения, особенно в настройках с большое количество данных. Эти приложения варьируются от стохастическая оптимизация методы и алгоритмы, в онлайн-формы EM алгоритм, обучение с подкреплением через временные различия, и глубокое обучение, и другие.[1]Алгоритмы стохастической аппроксимации также использовались в социальных науках для описания коллективной динамики: фиктивная игра в теории обучения и алгоритмы консенсуса могут быть изучены с помощью их теории.[2]

Самыми ранними и прототипными алгоритмами такого рода являются Роббинс – Монро и Кифер – Вулфовиц алгоритмы, представленные соответственно в 1951 и 1952 годах.

Алгоритм Роббинса – Монро

Алгоритм Роббинса – Монро, представленный в 1951 г. Герберт Роббинс и Саттон Монро,[3] представили методологию решения проблемы поиска корня, где функция представлена ​​как ожидаемое значение. Предположим, что у нас есть функция , а постоянная , такое, что уравнение имеет уникальный корень в . Предполагается, что пока мы не можем непосредственно наблюдать функцию , вместо этого мы можем получить измерения случайной величины куда . Структура алгоритма заключается в генерации итераций в форме:

Здесь, представляет собой последовательность положительных размеров шага. Роббинс и Монро доказали[3], Теорема 2 который сходится в (а значит, и вероятность) к , и Блюм[4] позже было доказано, что сходимость действительно с вероятностью единица при условии, что

  • равномерно ограничен,
  • не убывает,
  • существует и положительно, и
  • Последовательность удовлетворяет следующим требованиям:

Конкретная последовательность шагов, удовлетворяющая этим условиям, предложенная Роббинсом – Монро, имеет вид: , за . Возможны и другие серии, но для усреднения шума в , это условие должно быть выполнено.

Результаты сложности

  1. Если дважды непрерывно дифференцируема и сильно выпукла, а минимизатор принадлежит интерьеру , то алгоритм Роббинса – Монро достигнет асимптотически оптимальной скорости сходимости по отношению к целевой функции, равной , куда минимальное значение над .[5][6]
  2. Наоборот, в общем выпуклом случае, когда отсутствуют предположения гладкости и сильной выпуклости, Немировский и Юдин[7] показали, что асимптотически оптимальная скорость сходимости по значениям целевой функции равна . Они также доказали, что этот показатель нельзя улучшить.

Последующие события и усреднение Поляка – Рупперта

Хотя алгоритм Роббинса-Монро теоретически может достичь в предположении дважды непрерывной дифференцируемости и сильной выпуклости он может довольно плохо работать при реализации. Это в первую очередь связано с тем, что алгоритм очень чувствителен к выбору последовательности размера шага, и предполагаемая асимптотически оптимальная политика размера шага может быть весьма вредной вначале.[6][8]

Чанг[9](1954) и Фабиан[10](1968) показали, что мы можем достичь оптимальной скорости сходимости с (или же ). Лай и Роббинс[11][12] разработаны адаптивные процедуры для оценки такой, что имеет минимальную асимптотическую дисперсию. Однако применение таких оптимальных методов требует большого количества априорной информации, которую трудно получить в большинстве ситуаций. Чтобы преодолеть этот недостаток, Поляк[13](1991) и Рупперт[14](1988) независимо разработали новый оптимальный алгоритм, основанный на идее усреднения траекторий. Поляк и Юдицкий[15] также представил метод ускорения Роббинса – Монро для линейных и нелинейных задач поиска корня за счет использования более длинных шагов и усреднения итераций. Алгоритм будет иметь следующую структуру:

Конвергенция к единственному корню полагается на условие, что последовательность шагов убывает достаточно медленно. То есть

A1)

Следовательно, последовательность с удовлетворяет этому ограничению, но нет, следовательно, более длинные шаги. При предположениях, изложенных в алгоритме Роббинса – Монро, результирующая модификация приведет к той же асимптотически оптимальной скорости сходимости но с более надежной политикой размера шага.[15] До этого идея использования более длинных шагов и усреднения итераций была предложена Немировским и Юдиным.[16] для случаев решения задачи стохастической оптимизации с непрерывными выпуклыми целями и для выпукло-вогнутых задач перевала. Было обнаружено, что эти алгоритмы достигают неасимптотической скорости .

Более общий результат дается в главе 11 Кушнера и Инь.[17] путем определения интерполированного времени , интерполированный процесс и интерполированный нормализованный процесс в качестве

Пусть итеративное среднее будет и соответствующая нормализованная ошибка должна быть .

С предположением A1) и следующие A2)

A2) Есть матрица Гурвица и симметричная положительно определенная матрица такой, что слабо сходится к , куда Статистическое решение

куда это стандартный винеровский процесс.

удовлетворен, и определите . Тогда для каждого ,

Успех идеи усреднения объясняется разделением шкалы времени исходной последовательности. и усредненная последовательность , причем шкала времени первого быстрее.

Применение в стохастической оптимизации

Предположим, мы хотим решить следующую задачу стохастической оптимизации

куда дифференцируема и выпукла, то эта задача равносильна нахождению корня из . Здесь можно интерпретировать как некоторую «наблюдаемую» стоимость как функцию выбранной и случайные эффекты . На практике может быть трудно получить аналитическую форму , Метод Роббинса – Монро позволяет сгенерировать последовательность приблизить если можно создать , в котором условное ожидание данный точно , т.е. моделируется из условного распределения, определяемого

Здесь беспристрастная оценка . Если зависит от , в общем, нет естественного способа генерировать случайный результат это несмещенная оценка градиента. В некоторых особых случаях, когда применимы методы IPA или отношения правдоподобия, можно получить несмещенную оценку градиента. . Если рассматривается как некий "фундаментальный" базовый случайный процесс, который генерируется независимо из , и при некоторых условиях регуляризации для операций обмена производной-интегралом, так что , тогда дает несмещенную оценку фундаментального градиента. Однако для некоторых приложений приходится использовать конечно-разностные методы, в которых имеет условное ожидание, близкое к но не совсем ему.

Затем мы определяем рекурсию аналогично методу Ньютона в детерминированном алгоритме:

Сходимость алгоритма

Следующий результат дает достаточные условия на для сходимости алгоритма:[18]

C1)

C2)

C3)

C4)

C5)

потом сходится к почти наверняка.

Вот несколько интуитивно понятных объяснений этих условий. Предполагать является равномерно ограниченными случайными величинами. Если C2) не выполняется, т.е. , тогда

является ограниченной последовательностью, поэтому итерация не может сходиться к если первоначальное предположение слишком далеко от . Что касается C3), обратите внимание, что если сходится к тогда

так что мы должны иметь И условие C3) это обеспечивает. Естественный выбор был бы . Условие C5) является довольно жестким условием формы ; он дает направление поиска алгоритма.

Пример (где подходит метод стохастического градиента)[8]

Предполагать , куда дифференцируема и случайная величина, не зависящая от . потом зависит от среднего значения , и метод стохастического градиента будет уместен в этой задаче. Мы можем выбрать

Алгоритм Кифера – Вулфовица

Алгоритм Кифера – Вулфовица был введен в 1952 г. Джейкоб Вулфовиц и Джек Кифер,[19] и был мотивирован публикацией алгоритма Роббинса – Монро. Однако алгоритм был представлен как метод, который стохастически оценивает максимум функции. Позволять - функция, имеющая максимум в точке . Предполагается, что неизвестно; однако некоторые наблюдения , куда , можно сделать в любой момент . Структура алгоритма соответствует градиентному методу, при этом итерации генерируются следующим образом:

куда и независимы, а градиент аппроксимируется конечными разностями. Последовательность задает последовательность конечно-разностных ширин, используемых для аппроксимации градиента, а последовательность задает последовательность положительных размеров шага, взятых в этом направлении. Кифер и Вулфовиц доказали, что если удовлетворяет некоторым условиям регулярности, то сходится к по вероятности как , а позже Блюм[4] в 1954 г. показал сходится к почти наверняка при условии, что:

  • для всех .
  • Функция имеет единственную точку максимума (минимума) и является сильно вогнутым (выпуклым)
    • Впервые алгоритм был представлен с требованием, чтобы функция сохраняет сильную глобальную выпуклость (вогнутость) на всем допустимом пространстве. Учитывая, что это условие слишком ограничительно, чтобы накладывать его на всю область, Кифер и Вулфовиц предложили, что достаточно наложить условие на компактное множество который, как известно, включает оптимальное решение.
  • Функция удовлетворяет следующим условиям регулярности:
    • Существует и такой, что
    • Существует и такой, что
    • Для каждого , есть некоторые такой, что
  • Выбранные последовательности и должны быть бесконечными последовательностями положительных чисел такие, что

Подходящим выбором последовательностей, рекомендованным Кифером и Вулфовицем, будет и .

Последующие события и важные вопросы

  1. Алгоритм Кифера Вулфовица требует, чтобы для каждого вычисления градиента по крайней мере для каждой итерации алгоритма необходимо моделировать разные значения параметров, где размер области поиска. Это означает, что когда большой, алгоритм Кифера – Вулфовица потребует значительных вычислительных затрат на итерацию, что приведет к медленной сходимости.
    1. Для решения этой проблемы Сполл предложил использовать одновременные возмущения для оценки градиента. Этот метод потребует только двух симуляций на итерацию, независимо от размера. .[20]
  2. В условиях, необходимых для сходимости, бывает сложно найти возможность указать заранее определенный компакт, который удовлетворяет сильной выпуклости (или вогнутости) и содержит уникальное решение. Что касается реальных приложений, если домен достаточно большой, эти предположения могут быть довольно ограничительными и в высшей степени нереалистичными.

Дальнейшие разработки

Вокруг этих алгоритмов выросла обширная теоретическая литература, касающаяся условий сходимости, скорости сходимости, многомерных и других обобщений, правильного выбора размера шага, возможных моделей шума и так далее.[21][22] Эти методы также применяются в теория управления, и в этом случае неизвестная функция, которую мы хотим оптимизировать или найти ноль, может изменяться во времени. В этом случае размер шага не должен сходиться к нулю, но должен быть выбран таким образом, чтобы отслеживать функцию.[21], 2-е изд., Глава 3

К. Йохан Масрелиес и Р. Дуглас Мартин были первыми, кто применил стохастическую аппроксимацию к крепкий оценка.[23]

Основным инструментом для анализа алгоритмов стохастических приближений (включая алгоритмы Роббинса – Монро и Кифера – Вулфовица) является теорема Арье Дворецки опубликовано в трудах третьего симпозиума Беркли по математической статистике и вероятности, 1956.[24]

Смотрите также

Рекомендации

  1. ^ Тулис, Панос; Аирольди, Эдоардо (2015). «Масштабируемые стратегии оценивания, основанные на стохастических аппроксимациях: классические результаты и новые идеи». Статистика и вычисления. 25 (4): 781–795. Дои:10.1007 / s11222-015-9560-у. ЧВК  4484776. PMID  26139959.
  2. ^ Ле Ни, Джером. «Введение в алгоритмы стохастической аппроксимации» (PDF). Политехнический Монреаль. Учебные заметки. Получено 16 ноября 2016.
  3. ^ а б Роббинс, Х.; Монро, С. (1951). «Метод стохастической аппроксимации». Анналы математической статистики. 22 (3): 400. Дои:10.1214 / aoms / 1177729586.
  4. ^ а б Блюм, Юлиус Р. (1954-06-01). «Методы приближения, сходящиеся с вероятностным». Анналы математической статистики. 25 (2): 382–386. Дои:10.1214 / aoms / 1177728794. ISSN  0003-4851.
  5. ^ Сакс Дж. (1958). «Асимптотическое распределение процедур стохастической аппроксимации». Анналы математической статистики. 29 (2): 373–405. Дои:10.1214 / aoms / 1177706619. JSTOR  2237335.
  6. ^ а б Немировский, А.; Юдицкий, А .; Lan, G .; Шапиро, А. (2009). "Робастный стохастический приближенный подход к стохастическому программированию". SIAM Journal по оптимизации. 19 (4): 1574. Дои:10.1137/070704277.
  7. ^ Сложность проблемы и эффективность методов оптимизации, А. Немировский, Д. Юдин, Wiley -Intersci. Сер. Дискретная математика 15 Джон Вили Нью-Йорк (1983) .
  8. ^ а б Введение в стохастический поиск и оптимизацию: оценка, моделирование и управление, Дж. К. Сполл, Джон Вили Хобокен, штат Нью-Джерси, (2003).
  9. ^ Чанг, К. Л. (1954-09-01). «О методе стохастической аппроксимации». Анналы математической статистики. 25 (3): 463–483. Дои:10.1214 / aoms / 1177728716. ISSN  0003-4851.
  10. ^ Фабиан, Вацлав (1968-08-01). «Об асимптотической нормальности в стохастическом приближении». Анналы математической статистики. 39 (4): 1327–1332. Дои:10.1214 / aoms / 1177698258. ISSN  0003-4851.
  11. ^ Lai, T. L .; Роббинс, Герберт (1979-11-01). «Адаптивный дизайн и стохастическая аппроксимация». Анналы статистики. 7 (6): 1196–1221. Дои:10.1214 / aos / 1176344840. ISSN  0090-5364.
  12. ^ Лай, Цзе Люн; Роббинс, Герберт (1981-09-01). «Непротиворечивость и асимптотическая эффективность оценок наклона в схемах стохастической аппроксимации». Zeitschrift für Wahrscheinlichkeitstheorie und Verwandte Gebiete. 56 (3): 329–360. Дои:10.1007 / BF00536178. ISSN  0044-3719. S2CID  122109044.
  13. ^ Поляк, Б Т (1990-01-01). "Новые процедуры типа стохастической аппроксимации.". 7 (7). Цитировать журнал требует | журнал = (помощь)
  14. ^ Рупперт, Д. «Эффективные оценщики из медленно сходящегося процесса Роббинса-Монро». Цитировать журнал требует | журнал = (помощь)
  15. ^ а б Поляк, Б. Т .; Юдицкий, А. Б. (1992). «Ускорение стохастической аппроксимации путем усреднения». SIAM Journal по управлению и оптимизации. 30 (4): 838. Дои:10.1137/0330046.
  16. ^ О сходимости Чезари метода наискорейшего спуска для аппроксимации седловых точек выпукло-вогнутых функций, А. Немировский и Д. Юдин, Докл. Акад. Наук ССР 2939, (1978), Советская математика. Докл. 19 (1978 (английский)).
  17. ^ Кушнер, Гарольд; Георгий Инь, Г. (17 июля 2003 г.). Стохастическая аппроксимация и рекурсивные алгоритмы и | Гарольд Кушнер | Springer. www.springer.com. ISBN  9780387008943. Получено 2016-05-16.
  18. ^ Bouleau, N .; Лепингл, Д. (1994). Численные методы для случайных процессов.. Нью-Йорк: Джон Вили. ISBN  9780471546412.
  19. ^ Kiefer, J .; Вулфовиц, Дж. (1952). «Стохастическая оценка максимума функции регрессии». Анналы математической статистики. 23 (3): 462. Дои:10.1214 / aoms / 1177729392.
  20. ^ Сполл, Дж. К. (2000). «Адаптивная стохастическая аппроксимация методом одновременных возмущений». IEEE Transactions по автоматическому контролю. 45 (10): 1839–1853. Дои:10.1109 / TAC.2000.880982.
  21. ^ а б Кушнер, Х. Дж.; Инь, Г. Г. (1997). Алгоритмы и приложения стохастической аппроксимации. Дои:10.1007/978-1-4899-2696-8. ISBN  978-1-4899-2698-2.
  22. ^ Стохастическая аппроксимация и рекурсивное оценивание, Михаил Борисович Невельсон и Рафаил Залманович Хасьминский, переведенный Израильской программой научных переводов и Б. Сильвер, Провиденс, Род-Айленд: Американское математическое общество, 1973, 1976. ISBN  0-8218-1597-0.
  23. ^ Martin, R .; Масрелиес, К. (1975). «Робастная оценка с помощью стохастической аппроксимации». IEEE Transactions по теории информации. 21 (3): 263. Дои:10.1109 / TIT.1975.1055386.
  24. ^ Дворецкий, Арье (1956-01-01). «О стохастической аппроксимации». Регенты Калифорнийского университета. Цитировать журнал требует | журнал = (помощь)