Стохастическое приближение

Методы стохастической аппроксимации представляют собой семейство итерационных методов, обычно используемых для задач поиска корней или задач оптимизации . Правила рекурсивного обновления методов стохастической аппроксимации могут использоваться, среди прочего, для решения линейных систем, когда собранные данные искажены шумом, или для аппроксимации экстремальных значений функций, которые не могут быть вычислены напрямую, а только оценены с помощью зашумленных наблюдений.

Короче говоря, алгоритмы стохастической аппроксимации имеют дело с функцией вида что является ожидаемым значением функции, зависящей от случайной величины . Цель состоит в том, чтобы восстановить свойства такой функции. не оценивая его напрямую. Вместо этого алгоритмы стохастической аппроксимации используют случайные выборки эффективно аппроксимировать свойства такие как нули или экстремумы.

В последнее время стохастические аппроксимации нашли широкое применение в области статистики и машинного обучения, особенно в условиях больших данных . Эти приложения варьируются от методов и алгоритмов стохастической оптимизации до онлайн-форм EM-алгоритма , обучения с подкреплением через временные различия , глубокого обучения и других. [1] Алгоритмы стохастической аппроксимации также использовались в социальных науках для описания коллективной динамики: с помощью их теории можно изучать фиктивную игру в теории обучения и алгоритмах консенсуса. [2]

Самыми ранними и прототипами алгоритмов такого типа являются алгоритмы Роббинса-Монро и Кифера-Вольфовица, представленные соответственно в 1951 и 1952 годах.

Алгоритм Роббинса-Монро [ править ]

Алгоритм Роббинса-Монро, представленный в 1951 году Гербертом Роббинсом и Саттоном Монро , [3] представил методологию решения задачи поиска корня, где функция представлена ​​как ожидаемое значение. Предположим, что у нас есть функция и константа , такой, что уравнение имеет уникальный корень в . Предполагается, что пока мы не можем непосредственно наблюдать функцию вместо этого мы можем получить измерения случайной величины где . Структура алгоритма заключается в генерации итераций вида:

Здесь, представляет собой последовательность положительных размеров шагов. Роббинс и Монро доказали [3] , Теорема 2 что сходится в (а значит, и по вероятности) и Блюм [4] позже доказал, что сходимость на самом деле имеет вероятность единицу при условии, что:

  • равномерно ограничен,
  • не убывает,
  • существует и является положительным, и
  • Последовательность удовлетворяет следующим требованиям:

Конкретная последовательность шагов, удовлетворяющая этим условиям, предложенная Роббинсом-Монро, имеет вид: , для . Возможны и другие серии, но для усреднения шума в , вышеуказанное условие должно быть выполнено.

Результаты по сложности [ править ]

  1. Если дважды непрерывно дифференцируема и сильно выпукла, а минимизатор принадлежит внутренней части , то алгоритм Роббинса-Монро достигнет асимптотически оптимальной скорости сходимости относительно целевой функции, равной , где это минимальное значение над . [5] [6]
  2. Наоборот, в общем выпуклом случае, когда не хватает как предположения гладкости, так и сильной выпуклости, Немировский и Юдин [7] показали, что асимптотически оптимальная скорость сходимости по значениям целевой функции равна . Они также доказали, что этот показатель невозможно улучшить.

Последующие разработки и усреднение Рупперта Поляка

Хотя алгоритм Роббинса-Монро теоретически способен достичь в предположении дважды непрерывной дифференцируемости и сильной выпуклости он может работать довольно плохо при реализации. В первую очередь это связано с тем, что алгоритм очень чувствителен к выбору последовательности размеров шагов, и предполагаемая асимптотически оптимальная политика размера шага может быть весьма вредной в начале. [6] [8]

Чанг (1954) [9] и Фабиан (1968) [10] показало, что мы достигнем оптимальной скорости сходимости с (или ). Лай и Роббинс [11] [12] разработал адаптивные процедуры для оценки такой, что имеет минимальную асимптотическую дисперсию. Однако применение таких оптимальных методов требует большого количества априорной информации, которую в большинстве ситуаций трудно получить. Чтобы преодолеть этот недостаток, Поляк (1991) [13] и Руперт (1988) [14] самостоятельно разработал новый оптимальный алгоритм, основанный на идее усреднения траекторий. Поляк и Юдицкий [15] также представил метод ускорения Роббинса-Монро для линейных и нелинейных задач поиска корня за счет использования более длинных шагов и усреднения итераций. Алгоритм будет иметь следующую структуру:

Конвергенция к уникальному корню опирается на условие, что последовательность шагов убывает достаточно медленно. То есть

А1)

Следовательно, последовательность с удовлетворяет этому ограничению, но нет, отсюда и более длинные шаги. При предположениях, изложенных в алгоритме Роббинса – Монро, полученная модификация приведет к той же асимптотически оптимальной скорости сходимости. но с более жесткой политикой размера шага. [15] До этого идею использования более длинных шагов и усреднения итераций уже предлагали Немировский и Юдин. [16] для случаев решения задачи стохастической оптимизации с непрерывными выпуклыми целями и для выпукло-вогнутых седловых задач. Было замечено, что эти алгоритмы достигают неасимптотической скорости .

Более общий результат дан в главе 11 книги Кушнера и Инь. [17] путем определения интерполированного времени , интерполированный процесс и интерполированный нормированный процесс как

Пусть итерационная средняя будет и соответствующая нормализованная ошибка будет .

С предположением A1) и следующим A2)

А2) Имеется матрица Гурвица и симметричную и положительно определенную матрицу такой, что слабо сходится к , где это статистическое решение

где стандартный винеровский процесс.

удовлетворены и определите . Тогда для каждого ,

Успех идеи усреднения обусловлен разделением исходной последовательности по временной шкале. и усредненная последовательность , причем временной масштаб первого быстрее.

Применение в стохастической оптимизации [ править ]

Предположим, мы хотим решить следующую задачу стохастической оптимизации.

где дифференцируема и выпукла, то эта задача эквивалентна нахождению корня из . Здесь можно интерпретировать как некоторую «наблюдаемую» стоимость как функцию выбранной и случайные эффекты . На практике может быть сложно получить аналитическую форму , метод Роббинса-Монро позволяет сгенерировать последовательность приблизить если можно сгенерировать , в котором условное ожидание данный это точно , то есть моделируется из условного распределения, определяемого

Здесь является несмещенной оценкой . Если зависит от , вообще не существует естественного способа генерирования случайного результата это несмещенная оценка градиента. В некоторых особых случаях, когда применимы методы IPA или отношения правдоподобия, можно получить несмещенную оценку градиента. . Если рассматривается как некий «фундаментальный» случайный процесс, который генерируется независимо от , и при некоторых условиях регуляризации для операций перестановки производной и интеграла так, что , затем дает несмещенную оценку фундаментального градиента. Однако для некоторых приложений нам приходится использовать методы конечных разностей, в которых имеет условное математическое ожидание, близкое к но не совсем равен ему.

Затем мы определяем рекурсию аналогично методу Ньютона в детерминированном алгоритме:

Сходимость алгоритма [ править ]

Следующий результат дает достаточные условия на чтобы алгоритм сходился: [18]

С1)

С2)

С3)

С4)

С5)

Затем сходится к почти наверняка.

Вот несколько интуитивных объяснений этих состояний. Предполагать является равномерно ограниченной случайной величиной. Если C2) не выполняется, т.е. , затем

является ограниченной последовательностью, поэтому итерация не может сходиться к если первоначальное предположение слишком далеко от . Что касается C3), обратите внимание, что если сходится к затем

поэтому мы должны иметь ,и условие C3) это обеспечивает. Естественным выбором будет . Условие С5) является достаточно жестким условием на форму ; он дает направление поиска алгоритма.

Пример (где подходит метод стохастического градиента) [8] [ редактировать ]

Предполагать , где является дифференцируемым и является случайной величиной, не зависящей от . Затем зависит от среднего значения , и в этой задаче будет уместен метод стохастического градиента. Мы можем выбрать

Алгоритм Кифера-Вольфовица [ править ]

Алгоритм Кифера-Вольфовица был представлен в 1952 году Джейкобом Вулфовицем и Джеком Кифером . [19] и был мотивирован публикацией алгоритма Роббинса-Монро. Однако алгоритм был представлен как метод, который стохастически оценивает максимум функции.

Позволять — функция, имеющая максимум в точке . Предполагается, что неизвестно; однако некоторые наблюдения , где , можно сделать в любой момент . Структура алгоритма соответствует градиентному методу, при этом итерации генерируются как

где и независимы. На каждом этапе градиент аппроксимируется аналогично методу центральной разности с . Итак, последовательность задает последовательность ширины конечных разностей, используемую для аппроксимации градиента, а последовательность определяет последовательность положительных размеров шагов, сделанных в этом направлении.

Кифер и Вулфовиц доказали, что если удовлетворяет определенным условиям регулярности, то сойдётся к по вероятности как , а позже Блюм [4] в 1954 году показал сходится к почти наверняка, при условии, что:

  • для всех .
  • Функция имеет единственную точку максимума (минимума) и является сильно вогнутым (выпуклым)
    • Алгоритм был впервые представлен с требованием, чтобы функция сохраняет сильную глобальную выпуклость (вогнутость) во всем допустимом пространстве. Учитывая, что это условие слишком ограничительно, чтобы его можно было наложить на всю область, Кифер и Вулфовиц предположили, что достаточно наложить это условие на компактное множество. которое, как известно, содержит оптимальное решение.
  • Функция удовлетворяет следующим условиям регулярности:
    • Существует и такой, что
    • Существует и такой, что
    • Для каждого , существует некоторый такой, что
  • Выбранные последовательности и должны быть бесконечными последовательностями положительных чисел такими, что

Подходящим выбором последовательностей, как рекомендовали Кифер и Вулфовиц, было бы следующее: и .

и важные Последующие проблемы события

  1. Алгоритм Кифера Вулфовица требует, чтобы для каждого вычисления градиента было как минимум разные значения параметров должны моделироваться для каждой итерации алгоритма, где - размерность пространства поиска. Это означает, что когда велик, алгоритм Кифера-Вольфовица потребует значительных вычислительных усилий на итерацию, что приведет к медленной сходимости.
    1. Чтобы решить эту проблему, Сполл предложил использовать одновременные возмущения для оценки градиента. Этот метод потребует только двух симуляций на итерацию, независимо от размерности. . [20]
  2. В условиях, необходимых для сходимости, может быть трудно найти возможность указать заранее определенный компакт, который удовлетворяет сильной выпуклости (или вогнутости) и содержит единственное решение. Что касается реальных приложений, если область применения достаточно велика, эти предположения могут быть довольно ограничительными и крайне нереалистичными.

Дальнейшие разработки [ править ]

Вокруг этих алгоритмов выросла обширная теоретическая литература, касающаяся условий сходимости, скорости сходимости, многомерности и других обобщений, правильного выбора размера шага, возможных моделей шума и т. д. [21] [22] Эти методы также применяются в теории управления , и в этом случае неизвестная функция, которую мы хотим оптимизировать или найти ноль, может меняться во времени. В этом случае размер шага не должен сходиться к нулю, а должен выбираться так, чтобы отслеживать функцию. [21] , 2-е изд., глава 3

К. Йохан Масрелиес и Р. Дуглас Мартин первыми подали заявку. стохастическая аппроксимация для робастной оценки . [23]

Основным инструментом анализа алгоритмов стохастических аппроксимаций (включая алгоритмы Роббинса-Монро и Кифера-Вольфовица) является теорема Арье Дворецкого, опубликованная в 1956 году. [24]

См. также [ править ]

Ссылки [ править ]

  1. ^ Тулис, Панос; Айролди, Эдоардо (2015). «Стратегии масштабируемой оценки, основанные на стохастических аппроксимациях: классические результаты и новые идеи» . Статистика и вычисления . 25 (4): 781–795. дои : 10.1007/s11222-015-9560-y . ПМЦ   4484776 . ПМИД   26139959 .
  2. ^ Ле Ню, Джером. «Введение в алгоритмы стохастической аппроксимации» (PDF) . Политехнический институт Монреаля . Учебные заметки . Проверено 16 ноября 2016 г.
  3. ^ Jump up to: Перейти обратно: а б Роббинс, Х .; Монро, С. (1951). «Метод стохастической аппроксимации» . Анналы математической статистики . 22 (3): 400. дои : 10.1214/aoms/1177729586 .
  4. ^ Jump up to: Перейти обратно: а б Блюм, Юлиус Р. (1 июня 1954 г.). «Методы аппроксимации, сходящиеся с вероятностью единица» . Анналы математической статистики . 25 (2): 382–386. дои : 10.1214/aoms/1177728794 . ISSN   0003-4851 .
  5. ^ Сакс, Дж. (1958). «Асимптотическое распределение процедур стохастической аппроксимации» . Анналы математической статистики . 29 (2): 373–405. дои : 10.1214/aoms/1177706619 . JSTOR   2237335 .
  6. ^ Jump up to: Перейти обратно: а б Немировский А. ; Юдицкий А.; Лан, Г.; Шапиро, А. (2009). «Надежный стохастический подход к стохастическому программированию». SIAM Journal по оптимизации . 19 (4): 1574. doi : 10.1137/070704277 .
  7. ^ Сложность проблемы и эффективность метода оптимизации, А. Немировский и Д. Юдин, Wiley -Intersci. Сер. Дискретная математика 15 Джон Уайли , Нью-Йорк (1983).
  8. ^ Jump up to: Перейти обратно: а б Введение в стохастический поиск и оптимизацию: оценка, моделирование и контроль , Дж. К. Сполл, Джон Вили Хобокен, Нью-Джерси , (2003).
  9. ^ Чанг, КЛ (1 сентября 1954 г.). «О методе стохастической аппроксимации» . Анналы математической статистики . 25 (3): 463–483. дои : 10.1214/aoms/1177728716 . ISSN   0003-4851 .
  10. ^ Фабиан, Вацлав (1 августа 1968 г.). «Об асимптотической нормальности в стохастическом приближении» . Анналы математической статистики . 39 (4): 1327–1332. дои : 10.1214/aoms/1177698258 . ISSN   0003-4851 .
  11. ^ Лай, TL; Роббинс, Герберт (1 ноября 1979 г.). «Адаптивный дизайн и стохастическая аппроксимация» . Анналы статистики . 7 (6): 1196–1221. дои : 10.1214/aos/1176344840 . ISSN   0090-5364 .
  12. ^ Лай, Цзе Люн; Роббинс, Герберт (1 сентября 1981 г.). «Состоятельность и асимптотическая эффективность оценок наклона в схемах стохастической аппроксимации» . Журнал теории вероятностей и смежных областей . 56 (3): 329–360. дои : 10.1007/BF00536178 . ISSN   0044-3719 . S2CID   122109044 .
  13. ^ Поляк, Б.Т. (1991). "Новые процедуры типа стохастической аппроксимации. (На русском языке.)" . Автоматизация и дистанционное управление . 7 (7).
  14. ^ Руперт, Дэвид (1988). Эффективные оценки медленно сходящегося процесса Роббинса-Монро (Технический отчет 781). Школа исследований операций и промышленной инженерии Корнеллского университета.
  15. ^ Jump up to: Перейти обратно: а б Поляк, Б.Т.; Юдицкий, А.Б. (1992). «Ускорение стохастической аппроксимации путем усреднения». SIAM Journal по контролю и оптимизации . 30 (4): 838. дои : 10.1137/0330046 .
  16. ^ О сходимости Чезари метода наискорейшего спуска для аппроксимации седловых точек выпукло-вогнутых функций, А. Немировский и Д. Юдин, Докл. Акад. Наук ССР 2939 , (1978 (русск.)), Сов. матем. Докл. 19 (1978 (английский)).
  17. ^ Кушнер, Гарольд; Джордж Инь, Г. (17 июля 2003 г.). Стохастическая аппроксимация и рекурсивные алгоритмы и | Гарольд Кушнер | Спрингер . www.springer.com. ISBN  9780387008943 . Проверено 16 мая 2016 г.
  18. ^ Було, Н.; Лепингл, Д. (1994). Численные методы исследования случайных процессов . Нью-Йорк: Джон Уайли. ISBN  9780471546412 .
  19. ^ Кифер, Дж.; Вулфовиц, Дж. (1952). «Стохастическая оценка максимума функции регрессии» . Анналы математической статистики . 23 (3): 462. doi : 10.1214/aoms/1177729392 .
  20. ^ Сполл, Дж. К. (2000). «Адаптивная стохастическая аппроксимация методом одновременных возмущений». Транзакции IEEE при автоматическом управлении . 45 (10): 1839–1853. дои : 10.1109/TAC.2000.880982 .
  21. ^ Jump up to: Перейти обратно: а б Кушнер, HJ ; Инь, Г.Г. (1997). Алгоритмы стохастической аппроксимации и их приложения . дои : 10.1007/978-1-4899-2696-8 . ISBN  978-1-4899-2698-2 .
  22. ^ Стохастическая аппроксимация и рекурсивная оценка , Михаил Борисович Невельсон и Рафаил Залманович Хасминский, перевод Израильской программы научных переводов и Б. Сильвер, Провиденс, Род-Айленд: Американское математическое общество, 1973, 1976. ISBN   0-8218-1597-0 .
  23. ^ Мартин, Р.; Масрелиез, К. (1975). «Надежная оценка с помощью стохастической аппроксимации». Транзакции IEEE по теории информации . 21 (3): 263. doi : 10.1109/TIT.1975.1055386 .
  24. ^ Дворецкий, Арье (1956). «О стохастической аппроксимации» . В Неймане, Ежи (ред.). Труды третьего симпозиума Беркли по математической статистике и вероятности, 1954–1955, том. Я. ​Издательство Калифорнийского университета. стр. 39–55. МР   0084911 .