《强化学习》(第 2 版) 习题 2
2.1
$1/4$. # 2.2 4, 5必定发生了, 其余都可能发生. # 2.3 首先应该要确定, 只要 $\epsilon$ 不取 $0$ , 经过足够长的时间应该都能够收敛到最优情况, 于是最优动作的概率为 $(1-\epsilon)\frac{\epsilon}{10}]$ , 而贪心取最优动作的概率取决于最开始的动作, 从期望值来看, 这个概率是 $1/10$ . 那么平均收益即可计算. $\epsilon-贪心$ : $$ (1-\epsilon)\mathbb{E}[q_*(a_t)]+\epsilon\sum_{i=1}^{10}\mathbb{E}[q_*(a_i)] $$其中 $a_t$ 是最优动作
贪心:
$$
\frac{1}{10}\sum_{i=1}^{10}\mathbb{E}]q_*(a_i)]
$$
2.4
$$ \alpha_i\prod_{j=i+1}^{n}(1-\alpha_j) $$2.5
可以明显看出常数步长对于非平稳问题的优势.
2.6
因为其会探索得更多, 因此会更糟, 但同时由于其还拥有贪心的本质, 因此在不同臂收益差距明显时, 会出现峰值.
2.7
只需证明最后表达式与 $Q_1$ 无关即可. 展开可得
$$
Q_{n+1}=Q_1\prod_{i=1}^{n}(1-\beta_i)+\sum_{i=1}^nR_i\beta_i\prod_{j=i+1}^{n}(1-\beta_j)
$$
显然有 $\beta_1=1$ . 因此
$$
Q_{n+1} =\sum_{i=1}^nR_i\beta_i\prod_{j=i+1}^{n}(1-\beta_j)
$$
与 $Q_1$ 无关.
2.8
第 11 步恰好是 “10” 臂赌博机加一, 为什么这么恰好呢? 原因是 $\text{UBC}$ 的特点让其对于从未选择过的动作的优先度高于其他动作, 于是前 10 步恰好做过 10 钟动作, 因此对于每个动作来说 $\text{UBC}$ 特有的那一项标准差度量相等, 因此这一步完全是贪心的状态 (完全没有试探) , 因此产生一个小小的峰值. 而过了这一步, 试探的能力才会逐渐提升. 如果 $c=1$ , 也就是减少, 相当于提升了 $\text{UBC}$ 贪心的能力, 也就会更平滑, 尖峰就不会那么突出了.
2.9
$\text{softmax}$ 就是广义的 $\text{sigmoid}$ .
2.10
(1)
只选动作 1 或动作 2 , 期望是 0.5 .
(2)
最优期望是 0.55 . 当 A 时选择动作 2 , B 时选择动作 1 .
2.11
这是要我把其他算法都实现一遍的意思??
好像有点丑.