Стохастическое динамическое программирование

Первоначально представленное Ричардом Э. Беллманом в ( Bellman 1957 ), стохастическое динамическое программирование представляет собой метод моделирования и решения проблем принятия решений в условиях неопределенности . Тесно связанное со стохастическим программированием и динамическим программированием , стохастическое динамическое программирование представляет собой исследуемую проблему в форме уравнения Беллмана . Цель состоит в том, чтобы разработать политику, предписывающую, как оптимально действовать в условиях неопределенности.

Мотивирующий пример: Азартная игра.

У игрока есть 2 доллара, ему разрешено сыграть в азартную игру 4 раза, и его цель состоит в том, чтобы максимизировать вероятность того, что в итоге у него останется как минимум 6 долларов. Если игрок ставит $ $b$ при ходе игры, то с вероятностью 0,4 она выигрывает игру, возвращает первоначальную ставку и увеличивает свою капитальную позицию на $ $b$ ; с вероятностью 0,6 она теряет сумму ставки $ $b$ ; все пьесы попарно независимы . В любом ходе игры игрок не может ставить больше денег, чем он имел в своем распоряжении в начале этой игры. ^[1]

Стохастическое динамическое программирование можно использовать для моделирования этой проблемы и определения стратегии ставок, которая, например, максимизирует вероятность игрока получить богатство в размере как минимум 6 долларов к концу горизонта ставок.

Обратите внимание: если нет ограничений на количество игр, в которые можно играть, проблема становится вариантом известного петербургского парадокса .

Формальный фон

Рассмотрим дискретную систему, определенную на $n$ этапы, на которых каждый этап $t=1,\ldots ,n$ характеризуется

состояние исходное $s_{t}\in S_{t}$ , где $S_{t}$ — множество возможных состояний в начале этапа $t$ ;
переменная решения $x_{t}\in X_{t}$ , где $X_{t}$ это набор возможных действий на этапе $t$ - Обратите внимание, что $X_{t}$ может быть функцией начального состояния $s_{t}$ ;
немедленная функция затрат/вознаграждения $p_{t}(s_{t},x_{t})$ , представляющий стоимость/награду на этапе $t$ если $s_{t}$ это начальное состояние и $x_{t}$ выбранное действие;
функция перехода состояний $g_{t}(s_{t},x_{t})$ что ведет систему к состоянию $s_{t+1}=g_{t}(s_{t},x_{t})$ .

Позволять $f_{t}(s_{t})$ представляют оптимальные затраты/вознаграждение, полученные путем следования оптимальной политике на этапах $t,t+1,\ldots ,n$ . Без ограничения общности в дальнейшем мы будем рассматривать настройку максимизации вознаграждения. В детерминированном динамическом программировании обычно имеют дело с функциональными уравнениями, имеющими следующую структуру:

f_{t}(s_{t})=\max _{x_{t}\in X_{t}}\{p_{t}(s_{t},x_{t})+f_{t+1}(s_{t+1})\}

где $s_{t+1}=g_{t}(s_{t},x_{t})$ а граничное условие системы есть

f_{n}(s_{n})=\max _{x_{n}\in X_{n}}\{p_{n}(s_{n},x_{n})\}.

Цель состоит в том, чтобы определить набор оптимальных действий, которые максимизируют $f_{1}(s_{1})$ . Учитывая нынешнее состояние $s_{t}$ и текущее действие $x_{t}$ , мы точно знаем, какое вознаграждение будет получено на текущем этапе и – благодаря функции перехода состояний $g_{t}$ – будущее состояние, к которому переходит система.

Однако на практике, даже если мы знаем состояние системы в начале текущего этапа, а также принятое решение, состояние системы в начале следующего этапа и вознаграждение за текущий период часто являются случайными величинами , которые можно наблюдать лишь в конце текущего этапа.

Стохастическое динамическое программирование имеет дело с задачами, в которых вознаграждение текущего периода и/или состояние следующего периода являются случайными, т.е. с многоступенчатыми стохастическими системами. Цель лица, принимающего решения, — максимизировать ожидаемое (дисконтированное) вознаграждение в течение заданного горизонта планирования.

В своей наиболее общей форме стохастические динамические программы имеют дело с функциональными уравнениями, имеющими следующую структуру:

f_{t}(s_{t})=\max _{x_{t}\in X_{t}(s_{t})}\left\{({\text{expected reward during stage }}t\mid s_{t},x_{t})+\alpha \sum _{s_{t+1}}\Pr(s_{t+1}\mid s_{t},x_{t})f_{t+1}(s_{t+1})\right\}

где

$f_{t}(s_{t})$ это максимальная ожидаемая награда, которую можно получить на этапах $t,t+1,\ldots ,n$ , данное состояние $s_{t}$ в начале этапа $t$ ;
$x_{t}$ принадлежит к множеству $X_{t}(s_{t})$ возможных действий на этапе $t$ данное начальное состояние $s_{t}$ ;
$\alpha$ – коэффициент дисконтирования ;
$\Pr(s_{t+1}\mid s_{t},x_{t})$ — условная вероятность того, что состояние в конце этапа $t$ является $s_{t+1}$ учитывая текущее состояние $s_{t}$ и выбранное действие $x_{t}$ .

Марковские процессы принятия решений представляют собой особый класс стохастических динамических программ, в которых лежащий в основе случайный процесс является стационарным процессом , обладающим марковским свойством .

Азартная игра как стохастическая динамическая программа.

Азартную игру можно сформулировать как стохастическую динамическую программу следующим образом: существуют $n=4$ игры (т.е. этапы ) в горизонте планирования

государство $s$ в период $t$ представляет собой первоначальное богатство на начало периода $t$ ;
действие , заданное состояние $s$ в период $t$ это сумма ставки $b$ ;
вероятность перехода $p_{i,j}^{a}$ из штата $i$ заявить $j$ когда действие $a$ взят в штат $i$ легко выводится из вероятности выигрыша (0,4) или проигрыша (0,6) в игре.

Позволять $f_{t}(s)$ — вероятность того, что к концу игры 4 у игрока будет не менее 6 долларов при условии, что у него есть $s$ в начале игры $t$ .

немедленная прибыль, полученная в случае действия $b$ взят в штат $s$ определяется ожидаемым значением $p_{t}(s,b)=0.4f_{t+1}(s+b)+0.6f_{t+1}(s-b)$ .

Чтобы вывести функциональное уравнение , определим $b_{t}(s)$ как ставка, которая достигает $f_{t}(s)$ , то в начале игры $t=4$

если $s<3$ невозможно достичь цели, т.е. $f_{4}(s)=0$ для $s<3$ ;
если $s\geq 6$ цель достигнута, т. $f_{4}(s)=1$ для $s\geq 6$ ;
если $3\leq s\leq 5$ игрок должен сделать ставку, достаточную для достижения цели, т.е. $f_{4}(s)=0.4$ для $3\leq s\leq 5$ .

Для $t<4$ функциональное уравнение $f_{t}(s)=\max _{b_{t}(s)}\{0.4f_{t+1}(s+b)+0.6f_{t+1}(s-b)\}$ , где $b_{t}(s)$ колеблется в $0,...,s$ ; цель состоит в том, чтобы найти $f_{1}(2)$ .

Учитывая функциональное уравнение, оптимальную политику ставок можно получить с помощью алгоритмов прямой рекурсии или обратной рекурсии, как описано ниже.

Методы решения

Стохастические динамические программы можно решить оптимально, используя алгоритмы обратной или прямой рекурсии . Мемоизация обычно используется для повышения производительности. Однако, как и детерминированное динамическое программирование, его стохастический вариант страдает от проклятия размерности . По этой причине приближенные методы решения в практических приложениях обычно используются .

Обратная рекурсия

Учитывая ограниченное пространство состояний, обратная рекурсия ( Берцекас 2000 ) начинается с табулирования $f_{n}(k)$ для каждого возможного состояния $k$ относящийся к заключительному этапу $n$ . После того, как эти значения сведены в таблицу вместе с соответствующими оптимальными действиями, зависящими от состояния, $x_{n}(k)$ , можно перейти на сцену $n-1$ и свести в таблицу $f_{n-1}(k)$ для всех возможных состояний, принадлежащих сцене $n-1$ . Процесс продолжается, рассматривая в обратном порядке все оставшиеся этапы до первого. После завершения процесса табуляции $f_{1}(s)$ – ценность оптимальной политики при данном начальном состоянии $s$ – а также связанное с ним оптимальное действие $x_{1}(s)$ можно легко извлечь из таблицы. Поскольку вычисления выполняются в обратном порядке, ясно, что обратная рекурсия может привести к вычислению большого количества состояний, которые не нужны для вычисления $f_{1}(s)$ .

Пример: Азартная игра.

Прямая рекурсия

Учитывая исходное состояние $s$ системы в начале периода 1, прямая рекурсия ( Берцекас 2000 ) вычисляет $f_{1}(s)$ путем постепенного расширения функционального уравнения ( проход вперед ). Это включает в себя рекурсивные вызовы для всех $f_{t+1}(\cdot ),f_{t+2}(\cdot ),\ldots$ которые необходимы для вычисления заданного $f_{t}(\cdot )$ . Значение оптимальной политики и ее структура затем извлекаются посредством ( обратного прохода ), в ходе которого разрешаются эти приостановленные рекурсивные вызовы. Ключевым отличием от обратной рекурсии является тот факт, что $f_{t}$ вычисляется только для состояний, которые имеют отношение к вычислению $f_{1}(s)$ . Мемоизация используется, чтобы избежать повторного расчета уже рассмотренных состояний.

Пример: Азартная игра.

Мы проиллюстрируем прямую рекурсию в контексте ранее рассмотренного экземпляра азартной игры. Мы начинаем проход вперед, рассматривая $f_{1}(2)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 1,2,3,4}}\\\hline 0&0.4f_{2}(2+0)+0.6f_{2}(2-0)\\1&0.4f_{2}(2+1)+0.6f_{2}(2-1)\\2&0.4f_{2}(2+2)+0.6f_{2}(2-2)\\\end{array}}\right.$

На данный момент мы еще не рассчитали $f_{2}(4),f_{2}(3),f_{2}(2),f_{2}(1),f_{2}(0)$ , которые необходимы для вычисления $f_{1}(2)$ ; мы продолжаем и вычисляем эти элементы. Обратите внимание, что $f_{2}(2+0)=f_{2}(2-0)=f_{2}(2)$ , поэтому можно использовать мемоизацию и выполнить необходимые вычисления только один раз.

Расчет $f_{2}(4),f_{2}(3),f_{2}(2),f_{2}(1),f_{2}(0)$

$f_{2}(0)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 2,3,4}}\\\hline 0&0.4f_{3}(0+0)+0.6f_{3}(0-0)\\\end{array}}\right.$

$f_{2}(1)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 2,3,4}}\\\hline 0&0.4f_{3}(1+0)+0.6f_{3}(1-0)\\1&0.4f_{3}(1+1)+0.6f_{3}(1-1)\\\end{array}}\right.$

$f_{2}(2)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 2,3,4}}\\\hline 0&0.4f_{3}(2+0)+0.6f_{3}(2-0)\\1&0.4f_{3}(2+1)+0.6f_{3}(2-1)\\2&0.4f_{3}(2+2)+0.6f_{3}(2-2)\\\end{array}}\right.$

$f_{2}(3)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 2,3,4}}\\\hline 0&0.4f_{3}(3+0)+0.6f_{3}(3-0)\\1&0.4f_{3}(3+1)+0.6f_{3}(3-1)\\2&0.4f_{3}(3+2)+0.6f_{3}(3-2)\\3&0.4f_{3}(3+3)+0.6f_{3}(3-3)\\\end{array}}\right.$

$f_{2}(4)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 2,3,4}}\\\hline 0&0.4f_{3}(4+0)+0.6f_{3}(4-0)\\1&0.4f_{3}(4+1)+0.6f_{3}(4-1)\\2&0.4f_{3}(4+2)+0.6f_{3}(4-2)\end{array}}\right.$

Мы теперь вычислили $f_{2}(k)$ для всех $k$ которые нужны для вычисления $f_{1}(2)$ . Однако это привело к дополнительным приостановленным рекурсиям, включающим $f_{3}(4),f_{3}(3),f_{3}(2),f_{3}(1),f_{3}(0)$ . Мы продолжаем и вычисляем эти значения.

Расчет $f_{3}(4),f_{3}(3),f_{3}(2),f_{3}(1),f_{3}(0)$

$f_{3}(0)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(0+0)+0.6f_{4}(0-0)\\\end{array}}\right.$

$f_{3}(1)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(1+0)+0.6f_{4}(1-0)\\1&0.4f_{4}(1+1)+0.6f_{4}(1-1)\\\end{array}}\right.$

$f_{3}(2)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(2+0)+0.6f_{4}(2-0)\\1&0.4f_{4}(2+1)+0.6f_{4}(2-1)\\2&0.4f_{4}(2+2)+0.6f_{4}(2-2)\\\end{array}}\right.$

$f_{3}(3)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(3+0)+0.6f_{4}(3-0)\\1&0.4f_{4}(3+1)+0.6f_{4}(3-1)\\2&0.4f_{4}(3+2)+0.6f_{4}(3-2)\\3&0.4f_{4}(3+3)+0.6f_{4}(3-3)\\\end{array}}\right.$

$f_{3}(4)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(4+0)+0.6f_{4}(4-0)\\1&0.4f_{4}(4+1)+0.6f_{4}(4-1)\\2&0.4f_{4}(4+2)+0.6f_{4}(4-2)\end{array}}\right.$

$f_{3}(5)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4f_{4}(5+0)+0.6f_{4}(5-0)\\1&0.4f_{4}(5+1)+0.6f_{4}(5-1)\end{array}}\right.$

Поскольку этап 4 является последним этапом в нашей системе, $f_{4}(\cdot )$ представляют собой граничные условия , которые легко вычисляются следующим образом.

Граничные условия

${\begin{array}{ll}f_{4}(0)=0&b_{4}(0)=0\\f_{4}(1)=0&b_{4}(1)=\{0,1\}\\f_{4}(2)=0&b_{4}(2)=\{0,1,2\}\\f_{4}(3)=0.4&b_{4}(3)=\{3\}\\f_{4}(4)=0.4&b_{4}(4)=\{2,3,4\}\\f_{4}(5)=0.4&b_{4}(5)=\{1,2,3,4,5\}\\f_{4}(d)=1&b_{4}(d)=\{0,\ldots ,d-6\}{\text{ for }}d\geq 6\end{array}}$

На этом этапе можно продолжить и восстановить оптимальную политику и ее значение посредством обратного прохода , включающего сначала этап 3.

Обратный проход с участием $f_{3}(\cdot )$

$f_{3}(0)=\min \left\{{\begin{array}{rr}b&{\text{success probability in periods 3,4}}\\\hline 0&0.4(0)+0.6(0)=0\\\end{array}}\right.$

$f_{3}(1)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 3,4}}&{\mbox{max}}\\\hline 0&0.4(0)+0.6(0)=0&\leftarrow b_{3}(1)=0\\1&0.4(0)+0.6(0)=0&\leftarrow b_{3}(1)=1\\\end{array}}\right.$

$f_{3}(2)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 3,4}}&{\mbox{max}}\\\hline 0&0.4(0)+0.6(0)=0\\1&0.4(0.4)+0.6(0)=0.16&\leftarrow b_{3}(2)=1\\2&0.4(0.4)+0.6(0)=0.16&\leftarrow b_{3}(2)=2\\\end{array}}\right.$

$f_{3}(3)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 3,4}}&{\mbox{max}}\\\hline 0&0.4(0.4)+0.6(0.4)=0.4&\leftarrow b_{3}(3)=0\\1&0.4(0.4)+0.6(0)=0.16\\2&0.4(0.4)+0.6(0)=0.16\\3&0.4(1)+0.6(0)=0.4&\leftarrow b_{3}(3)=3\\\end{array}}\right.$

$f_{3}(4)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 3,4}}&{\mbox{max}}\\\hline 0&0.4(0.4)+0.6(0.4)=0.4&\leftarrow b_{3}(4)=0\\1&0.4(0.4)+0.6(0.4)=0.4&\leftarrow b_{3}(4)=1\\2&0.4(1)+0.6(0)=0.4&\leftarrow b_{3}(4)=2\\\end{array}}\right.$

$f_{3}(5)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 3,4}}&{\mbox{max}}\\\hline 0&0.4(0.4)+0.6(0.4)=0.4\\1&0.4(1)+0.6(0.4)=0.64&\leftarrow b_{3}(5)=1\\\end{array}}\right.$

и затем этап 2.

Обратный проход с участием $f_{2}(\cdot )$

$f_{2}(0)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0)+0.6(0)=0&\leftarrow b_{2}(0)=0\\\end{array}}\right.$

$f_{2}(1)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0)+0.6(0)=0\\1&0.4(0.16)+0.6(0)=0.064&\leftarrow b_{2}(1)=1\\\end{array}}\right.$

$f_{2}(2)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0.16)+0.6(0.16)=0.16&\leftarrow b_{2}(2)=0\\1&0.4(0.4)+0.6(0)=0.16&\leftarrow b_{2}(2)=1\\2&0.4(0.4)+0.6(0)=0.16&\leftarrow b_{2}(2)=2\\\end{array}}\right.$

$f_{2}(3)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0.4)+0.6(0.4)=0.4&\leftarrow b_{2}(3)=0\\1&0.4(0.4)+0.6(0.16)=0.256\\2&0.4(0.64)+0.6(0)=0.256\\3&0.4(1)+0.6(0)=0.4&\leftarrow b_{2}(3)=3\\\end{array}}\right.$

$f_{2}(4)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0.4)+0.6(0.4)=0.4\\1&0.4(0.64)+0.6(0.4)=0.496&\leftarrow b_{2}(4)=1\\2&0.4(1)+0.6(0.16)=0.496&\leftarrow b_{2}(4)=2\\\end{array}}\right.$

Наконец мы восстанавливаем значение $f_{1}(2)$ оптимальной политики

$f_{1}(2)=\min \left\{{\begin{array}{rrr}b&{\text{success probability in periods 1,2,3,4}}&{\mbox{max}}\\\hline 0&0.4(0.16)+0.6(0.16)=0.16\\1&0.4(0.4)+0.6(0.064)=0.1984&\leftarrow b_{1}(2)=1\\2&0.4(0.496)+0.6(0)=0.1984&\leftarrow b_{1}(2)=2\\\end{array}}\right.$

Это оптимальная политика, которая была проиллюстрирована ранее. Обратите внимание, что существует несколько оптимальных политик, приводящих к одному и тому же оптимальному значению. $f_{1}(2)=0.1984$ ; например, в первой игре можно поставить либо 1 доллар, либо 2 доллара.

Реализация на Python. Следующий пример представляет собой полную на Python реализацию этого примера .

from typing import List, Tuple
import functools


class memoize:
    def __init__(self, func):
        self.func = func
        self.memoized = {}
        self.method_cache = {}

    def __call__(self, *args):
        return self.cache_get(self.memoized, args, lambda: self.func(*args))

    def __get__(self, obj, objtype):
        return self.cache_get(
            self.method_cache,
            obj,
            lambda: self.__class__(functools.partial(self.func, obj)),
        )

    def cache_get(self, cache, key, func):
        try:
            return cache[key]
        except KeyError:
            cache[key] = func()
            return cache[key]

    def reset(self):
        self.memoized = {}
        self.method_cache = {}


class State:
    """the state of the gambler's ruin problem"""

    def __init__(self, t: int, wealth: float):
        """state constructor

        Arguments:
            t {int} -- time period
            wealth {float} -- initial wealth
        """
        self.t, self.wealth = t, wealth

    def __eq__(self, other):
        return self.__dict__ == other.__dict__

    def __str__(self):
        return str(self.t) + " " + str(self.wealth)

    def __hash__(self):
        return hash(str(self))


class GamblersRuin:
    def __init__(
        self,
        bettingHorizon: int,
        targetWealth: float,
        pmf: List[List[Tuple[int, float]]],
    ):
        """the gambler's ruin problem

        Arguments:
            bettingHorizon {int} -- betting horizon
            targetWealth {float} -- target wealth
            pmf {List[List[Tuple[int, float]]]} -- probability mass function
        """

        # initialize instance variables
        self.bettingHorizon, self.targetWealth, self.pmf = (
            bettingHorizon,
            targetWealth,
            pmf,
        )

        # lambdas
        self.ag = lambda s: [
            i for i in range(0, min(self.targetWealth // 2, s.wealth) + 1)
        ]  # action generator
        self.st = lambda s, a, r: State(
            s.t + 1, s.wealth - a + a * r
        )  # state transition
        self.iv = (
            lambda s, a, r: 1 if s.wealth - a + a * r >= self.targetWealth else 0
        )  # immediate value function

        self.cache_actions = {}  # cache with optimal state/action pairs

    def f(self, wealth: float) -> float:
        s = State(0, wealth)
        return self._f(s)

    def q(self, t: int, wealth: float) -> float:
        s = State(t, wealth)
        return self.cache_actions[str(s)]

    @memoize
    def _f(self, s: State) -> float:
        # Forward recursion
        values = [sum([p[1]*(self._f(self.st(s, a, p[0])) if s.t < self.bettingHorizon - 1 
                             else self.iv(s, a, p[0]))   # value function
                       for p in self.pmf[s.t]])          # bet realisations
                  for a in self.ag(s)]                   # actions                          
                       

        v = max(values)  
        try:        
            self.cache_actions[str(s)]=self.ag(s)[values.index(v)] # store best action
        except ValueError:
            self.cache_actions[str(s)]=None
            print("Error in retrieving best action")
        return v                                          # return expected total cost


instance = {
    "bettingHorizon": 4,
    "targetWealth": 6,
    "pmf": [[(0, 0.6), (2, 0.4)] for i in range(0, 4)],
}
gr, initial_wealth = GamblersRuin(**instance), 2

# f_1(x) is gambler's probability of attaining $targetWealth at the end of bettingHorizon
print("f_1(" + str(initial_wealth) + "): " + str(gr.f(initial_wealth)))

# Recover optimal action for period 2 when initial wealth at the beginning of period 2 is $1.
t, initial_wealth = 1, 1
print(
    "b_" + str(t + 1) + "(" + str(initial_wealth) + "): " + str(gr.q(t, initial_wealth))
)

Java-реализация. GamblersRuin.java — это отдельная Java 8 реализация приведенного выше примера на .

Примерное динамическое программирование

Введение в приближенное динамическое программирование представлено ( Powell 2009 ).

Дальнейшее чтение

Беллман, Р. (1957), Динамическое программирование , Princeton University Press, ISBN 978-0-486-42809-3 . Дуврское издание в мягкой обложке (2003 г.).
Росс, С.М.; Бимбаум, ZW; Лукач, Э. (1983), Введение в стохастическое динамическое программирование , Elsevier, ISBN 978-0-12-598420-1 .
Берцекас, Д. П. (2000), Динамическое программирование и оптимальное управление (2-е изд.), Athena Scientific, ISBN 978-1-886529-09-0 . В двух томах.
Пауэлл, ВБ (2009), «Что следует знать о приблизительном динамическом программировании», Naval Research Logistics , 56 (1): 239–249, CiteSeerX 10.1.1.150.1854 , doi : 10.1002/nav.20347 , S2CID 7134937

См. также

Теория управления – Отделение техники и математики
Динамическое программирование - метод оптимизации задачи
Обучение с подкреплением - Область машинного обучения
Стохастическое управление - Вероятностное оптимальное управление.
Случайный процесс – сбор случайных величин.
Стохастическое программирование - основа моделирования задач оптимизации, связанных с неопределенностью.

Ссылки

^ Эта проблема адаптирована из книги WL Winston, Operations Research: Applications and Algorithms (7th Edition), Duxbury Press, 2003, глава. 19, пример 3.

[1] Эта проблема адаптирована из книги WL Winston, Operations Research: Applications and Algorithms (7th Edition), Duxbury Press, 2003, глава. 19, пример 3.

[1]