4.1

$$ q_\pi(11,\text{down})=-1 $$

4.2

都是 $-20$ .

事实上只需要算出第一个 $-20$ 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 ($\text{down}$ 都是 $-20$) .

4.3

$$ \begin{aligned} q_\pi(s,a)&{\dot{=}}\mathbb{E}_\pi[G_t\mid S_t=s,A_t=a]\\ &{=}\mathbb{E_{\pi}}[R_{t+1}+\gamma G_{t+1}\mid S_t=s,A_t=a]\\ &{=}\mathbb{E}_\pi[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\ &{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_\pi(s',a')\right] \end{aligned} $$ $$ \begin{aligned} q_{k+1}(s,a)&{\dot{=}}\mathbb{E}_\pi[R_{t+1}+\gamma q_{k}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\ &{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_{k}(s',a')\right] \end{aligned} $$

4.4

“如果 $old\text-action\not= \pi(s)$ “ 改为 “如果 $\sum_{s',r}p(s',r\mid s,\pi(s))[r+\gamma V(s')]\not=\sum_{s',r}p(s',r\mid s,old\text-action)[r+\gamma V(s')]$“ .

4.5

  1. “任意设定 $V(s)\in R$ “ 改为 “任意设定 $Q(s, a)\in R$“ .
  2. “对每一个 $s\in \mathcal S$ 循环” 改为 “对每一个 $s\in\mathcal S,a\in\mathcal A$ 循环” ,
  3. ‘策略评估’ 中循环的内容改为
$$ \begin{aligned} &q\leftarrow Q(s,a)\\ &Q(s,a)\leftarrow\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') Q(s',a')\right]\\ &\Delta\leftarrow\max(\Delta,|q-Q(s,a)|) \end{aligned} $$
  1. ‘3. 策略改进’ 中 “$\pi(s)\leftarrow \mathop{\arg\max}_{a}\sum_{s',r}p(s',r\mid s,a)[r+\gamma V(s')]$“ 改为 “$\pi(s)\leftarrow \mathop{\arg\max}_{a}Q(s,a)$“

4.6

3: $\pi(s)$ 不能只取定值 $a$ , 要根据题目要求设定.

2: 好像没啥要改的…

1: 初始化需要多弄一个参数 $\varepsilon$ .

4.7

这训练方法效率也忒慢了… 于是我就偷懒无奈放弃了, 只写了策略评估的部分 (真的不是我懒啊喂).

杰克租车问题

4.8

首先确定一点, 在赌资为 $50$ 美元时, $q_*(50,50)=v_*(50)>v_*(s), s<50$ . 如果赌资少于 $50$ , 当达到 $50$ 时就相当于成功了一小半. 如果赌资大于 $50$ (大一点), 在输的时候最好也是输到 $50$ 美元, 好有一个退路. 因此就有了如此奇怪 (不连续) 的策略. 当然 $25$ 美元, $75$ 美元也是特殊的两个情况, 一个 ($25$ 美元) 堵上全部赌资 (赢了的话) 刚刚好达到 “成功了一小半的境地”, 一个 ($75$ 美元) 堵上 $25$ 美元赢了的话刚刚好胜利, 输了还有 $50$ 美元, 赢得概率还是很大, $25$ 美元算是次优情况, 而 $75$ 美元是更优情况 (这里的优指的是比之前的情况的优势大了很多). 因此其他情况都在考虑输和赢对这 3 种情况的靠拢.

4.9

赌徒问题

是稳定的.

4.10

$$ \begin{aligned} q_{k+1}(s,a)&{\dot{=}}\max_{a'}\mathbb{E}_\pi[R_{t+1}+\gamma q_{k}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a, A_{t+1}=a']\\ &{=}\max_{a'}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma q_{k}(s',a')\right] \end{aligned} $$