《强化学习》(第 2 版) 习题 4
4.1
$$ q_\pi(11,\text{down})=-1 $$4.2
都是 $-20$ .
事实上只需要算出第一个 $-20$ 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 ($\text{down}$ 都是 $-20$) .
4.3
$$ \begin{aligned} q_\pi(s,a)&{\dot{=}}\mathbb{E}_\pi[G_t\mid S_t=s,A_t=a]\\ &{=}\mathbb{E_{\pi}}[R_{t+1}+\gamma G_{t+1}\mid S_t=s,A_t=a]\\ &{=}\mathbb{E}_\pi[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\ &{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_\pi(s',a')\right] \end{aligned} $$ $$ \begin{aligned} q_{k+1}(s,a)&{\dot{=}}\mathbb{E}_\pi[R_{t+1}+\gamma q_{k}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\ &{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_{k}(s',a')\right] \end{aligned} $$4.4
“如果 $old\text-action\not= \pi(s)$ “ 改为 “如果 $\sum_{s',r}p(s',r\mid s,\pi(s))[r+\gamma V(s')]\not=\sum_{s',r}p(s',r\mid s,old\text-action)[r+\gamma V(s')]$“ .
4.5
- “任意设定 $V(s)\in R$ “ 改为 “任意设定 $Q(s, a)\in R$“ .
- “对每一个 $s\in \mathcal S$ 循环” 改为 “对每一个 $s\in\mathcal S,a\in\mathcal A$ 循环” ,
- ‘策略评估’ 中循环的内容改为
- ‘3. 策略改进’ 中 “$\pi(s)\leftarrow \mathop{\arg\max}_{a}\sum_{s',r}p(s',r\mid s,a)[r+\gamma V(s')]$“ 改为 “$\pi(s)\leftarrow \mathop{\arg\max}_{a}Q(s,a)$“
4.6
3: $\pi(s)$ 不能只取定值 $a$ , 要根据题目要求设定.
2: 好像没啥要改的…
1: 初始化需要多弄一个参数 $\varepsilon$ .
4.7
这训练方法效率也忒慢了… 于是我就偷懒无奈放弃了, 只写了策略评估的部分 (真的不是我懒啊喂).
4.8
首先确定一点, 在赌资为 $50$ 美元时, $q_*(50,50)=v_*(50)>v_*(s), s<50$ . 如果赌资少于 $50$ , 当达到 $50$ 时就相当于成功了一小半. 如果赌资大于 $50$ (大一点), 在输的时候最好也是输到 $50$ 美元, 好有一个退路. 因此就有了如此奇怪 (不连续) 的策略. 当然 $25$ 美元, $75$ 美元也是特殊的两个情况, 一个 ($25$ 美元) 堵上全部赌资 (赢了的话) 刚刚好达到 “成功了一小半的境地”, 一个 ($75$ 美元) 堵上 $25$ 美元赢了的话刚刚好胜利, 输了还有 $50$ 美元, 赢得概率还是很大, $25$ 美元算是次优情况, 而 $75$ 美元是更优情况 (这里的优指的是比之前的情况的优势大了很多). 因此其他情况都在考虑输和赢对这 3 种情况的靠拢.
4.9
是稳定的.