(史济怀) 数学分析教程上册第 3 版-练习题 1.8
3由于 $(n/(n-1))^{(n-1)}
《强化学习》(第 2 版) 习题 4
4.1$$
q_\pi(11,\text{down})=-1
$$
4.2都是 $-20$ .
事实上只需要算出第一个 $-20$ 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 ($\text{down}$ 都是 $-20$) .
4.3$$
\begin{aligned}
q_\pi(s,a)&{\dot{=}}\mathbb{E}_\pi[G_t\mid S_t=s,A_t=a]\\
&{=}\mathbb{E_{\pi}}[R_{t+1}+\gamma G_{t+1}\mid S_t=s,A_t=a]\\
&{=}\mathbb{E}_\pi[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})\mid S_t=s,A_t=a]\\
&{=}\sum_{s',r}p(s',r\mid s,a)\left[r+\gamma \sum _{a'}\pi(a'\mid s') q_\pi(s',a')\right]
\end{aligned}
$$
$$
\begin{aligned}
q_{k+1}( ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.7
1是. 因为
$$
|a_m-a_n|\leqslant|a_m-a_N|+|a_N-a_n|N$ 时, 有$$
L-\sum_{i=1}^n\frac{1}{i^2}\sum_{i=1}^n\frac{1}{i^2}\right)
$$那么对于这样的 $\epsilon$ , 当 $m>n>N$ 时, 就有$$
|a_m-a_n|0$ , 使得对任意的 $N\in\mathbb{Z}^*$ , 都存在 $m>n>N$ 使得 $|a_m-a_n|>\epsilon$ . 像第 4 题一样, 取 $N_1
《强化学习》(第 2 版) 习题 3
3.11.确定游戏闯关小游戏 (类似森林冰火人那种) , 游戏是确定的, 即你每次都可以用同样的方式获得同种分数
动作为上下左右, 可以考虑用相同时间间隔来进行离散处理, 通关给出正收益, 被攻击, 死亡给出负收益.
2.对弈棋类游戏, 给定对手, 那么对手的行为的概率就是可预测的, 那么环境 (棋盘) 就可预测.
3.随机游戏 比如 2048.
2不能. 环境信息决定于智能体的感知能力, 如果感知能力不够强 (不是上帝视角) , 那么同样的环境信息就可能是不同的情况, 那么这样的任务就不是 $\text{MDP}$ 框架.
3个人觉得是第一个层次 (即方向盘) . 首先要考虑 “动作” 操控 (实际操作) 的难度. 比如说轮胎、肌肉、思想这种层面, 即使训练好了, 如何方便之前的做出这种动作仍是一种困难. 而且要控制动作的数量. 肌肉要控制的地方太多了, 会导致训练的参数很多, 收敛慢. 而且还要便于人类理解. 人类就是操控方向盘来与环境交互的, 以方向盘层次作为训练的动作更容易理解.
4
这是我在别的地方找到的答案. 但我认为这样的答案是错误的 (或者是题目没有出得足够严谨) .
...
(史济怀) 数学分析教程上册第 3 版-练习题 1.6
1(1)$$
\lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^n=\lim_{n\to\infty}\left(1+\frac{1}{n-2}\right)^{n-2}\left(1+\frac{1}{n-2}\right)^2=\mathrm{e}
$$
2显然当 $k=1$ 时成立. 假设对于 $k=i$ 成立, 那么有
$$
\lim_{n\to\infty}\left(1+\frac{i+1}{n}\right)^n=\lim_{n\to\infty}\left(1+\frac{i}{n+1}\right)^n\left(1+\frac{1}{n}\right)^n=\mathrm{e}^{i+1}
$$
因此对于 $i+1$ 同样成立, 得证.
3利用提示.
4利用提示.
5易证.
6由上一题可得.
7右边不等式易证, 因此只证左边.
$$
\left(\frac{n}{n+k}\right)^{n+k}=1\cdot \left(\frac{n}{n+k}\right)\dots \left(\frac{n}{n+k}\right ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.5
1(1)当 $n>10$ 时, 数列单调递减, 而 $x_n>0$ , 因此极限存在.
(2)数列单调递减, $x_n>0$ , 极限存在.
2显然该数列单调递增, 但有 $x_n
(史济怀) 数学分析教程上册第 3 版-练习题 1.4
1当 $x$ 足够大, 时有$$
p(x)=x^3(1-\frac{4}{x}+\frac{5}{x^2}-\frac{6}{x^x})>\frac{x^3}{2}
$$显然 $\lim_{n\to\infty}p(n)=+\infty$ .
而当 $x$ 足够小时同理.
2$$
\frac{1}{n}(1+2+\dots+n)=\frac{1+n}{2}
$$
显然.
3由求和公式显然.
4$$
n(\sqrt n-\sqrt{n+1})=-\frac{n}{\sqrt n+\sqrt{n+1}}\frac{n}{2\sqrt{2n}}=\frac{\sqrt{n}}{2\sqrt 2}
$$
两边取极限可得.
《强化学习》(第 2 版) 习题 2
2.1$1/4$.
# 2.2
4, 5必定发生了, 其余都可能发生.
# 2.3
首先应该要确定, 只要 $\epsilon$ 不取 $0$ , 经过足够长的时间应该都能够收敛到最优情况, 于是最优动作的概率为 $(1-\epsilon)\frac{\epsilon}{10}]$ , 而贪心取最优动作的概率取决于最开始的动作, 从期望值来看, 这个概率是 $1/10$ . 那么平均收益即可计算.
$\epsilon-贪心$ :
$$
(1-\epsilon)\mathbb{E}[q_*(a_t)]+\epsilon\sum_{i=1}^{10}\mathbb{E}[q_*(a_i)]
$$
其中 $a_t$ 是最优动作
贪心:$$
\frac{1}{10}\sum_{i=1}^{10}\mathbb{E}]q_*(a_i)]
$$
2.4$$
\alpha_i\prod_{j=i+1}^{n}(1-\alpha_j)
$$
2.5多臂赌博机
可以明显看出常数步长对于非平稳问题的优势.
2.6因为其会探索得更多, 因此会更糟, 但同时由于其还拥有贪心的本质, 因此在不同臂收益 ...
《强化学习》(第 2 版) 习题 1
1.1 左右互搏(1)一开始应该收敛得很慢.
(2)应该不会, 我觉得它应该会收敛到必定不输的那个策略.
1.2 对称性(1)可以在更新价值表格时同时更新其对称位置.
(2)应该会更快收敛.
(3)不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑.
(4)不一定, 这与对手的策略有关.
1.3 贪心策略(1)如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好.
(2)贪心难以收敛到最优策略.
1.4 从试探中学习我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优.
1.5 其他提升方法(1)不能.
(2)直接几个 if 判断就好了.
(史济怀) 数学分析教程上册第 3 版-练习题 1.2
1只做部分, 且不完全做完因为我懒.
(3)$$
\frac{n!}{n^n}N$ 时, $\arctan n>\frac{\pi}{2}-\epsilon$ , 等价于 $|\arctan n-\frac{\pi}{2}|[\frac{1}{\epsilon}]+1$ 即可.
(5)可以.对于任意的 $\epsilon'>0$ , 只需取 $\epsilon=\deltaN$ 时, $\frac{a_n}{n}