Python 小技巧
将两个一维 array 所有的组合排列出你有两个一维数组: array1, array2 . 现在需要将它们的所有元素的组合排列出 (组合成二维数组).
1np.array(np.meshgrid(array1, array2).T.reshape(-1, 2)
求出二维数组中最大值位置你有一个二维数组: array , 求其中最大值的二维坐标.
1np.unravel_index(np.argmax(array), array.shape)
《强化学习》(第 2 版) 习题 6
6.1在 $V$ 被不断更新的情况下, 式子左边的 $V(S_t)$ 与右边的是不等价的. 因为右边的 $V(S_t)$ 是没有更新的, 而左边的 $V(S_t)$ 却是已经更新的. 因此右边得再加上 $\alpha\delta_t$ .
6.2我们将整个走高速以及到家的过程简化成一个状态 $s_2$ , 从新办公楼到新停车场到高速的过程简化成 $s_1$ , 显然 $V(s_2)$ 与之前的是一样的, 于是我们如果采取时序差分只需一步就可以获得较准确的更新, 这样显然比蒙特卡洛整个走一遍再更新的效率要高, 且准确度是差不多的 (关键就在于 $V(s_2)$ , 即某些状态的价值仍然相当正确的) .
6.3因为无折扣, 所以 $\gamma=1$ , 又因为在多数情况下回报 $R=0$ , 所以根据 $\text{TD}$ 方法的更新公式多数情况的价值都不会改变 (仍是 $0.5$). 而第一幕, 应该是到达了左边的终止状态, 值改变了 $-0.5\alpha$ .
6.4不知如何回答.
但是总的来说, $\alpha$ 越小, 收敛约慢, 相同的结果也越好. 且同一参数下 (至少不是 ...
(史济怀) 数学分析教程上册第 3 版-练习题 2.5
3由和差化积可得$$
\begin{aligned}
&\lim_{x\to+\infty}(\sin\sqrt{x+1}-\sin\sqrt{x-1})\\
=&\lim_{x\to+\infty}2\cos \frac{\sqrt{x+1}+\sqrt{x-1}}{2}\sin\frac{\sqrt{x+1}-\sqrt{x-1}}{2}
\end{aligned}
$$显然为 $0$ .
4假设有$$
\sin\sqrt{x+k}=\sin\sqrt{x}+\epsilon_x^k
$$显然 $\lim_{x\to\infty}\epsilon_x^k=0$ , 由此可证得.
5$$
\left|\lim_{x\to+\infty}\sin(\pi\sqrt{n^2+1})\right|=\left|\lim_{x\to+\infty}\sin(\pi n+\epsilon_x)\right|=\left|\lim_{x\to\infty}\sin(\epsilon_x)\right|=0
$$
因此有$$
\lim_{x\to+\infty}\sin(\pi\sqrt{n^2+ ...
(史济怀) 数学分析教程上册第 3 版-练习题 2.4
1设函数 $f$ 在 $(x_0-r, x_0)$ ($r$ 是一个确定的正数) 上有定义. 设 $l$ 是一个给定的实数. 若对任意给定的 $\varepsilon>0$ , 存在一个 $\delta\in(0,r)$ , 使得当 $0
(史济怀) 数学分析教程上册第 3 版-练习题 2.3
2用反证法. 若 $f$ 有两个不动点 $x_1, x_2$ , 显然这两个同样也是 $f\kern -0.2em \scriptsize\circ \normalsize \kern -0.4emf$ 的不动点.
4(1)无穷多个.
(2)不妨设 $f(x)=y$ . 显然有 $f(y)=x$ .又不妨设 $x\geqslant y$ , 那么显然有 $f(y)\geqslant f(x)$ , 由递增可知 $f(x)\geqslant f(y)$ . 那么就只有 $f(x)=f(y)$ , 也就是 $f(x)=x$ . 这是唯一解.
6有$$
f(1+1)=f(2) = 2f(1)
$$用数学归纳法, 假设对于 $n$ , $f(n)=nf(1)$ 成立, 那么有$$
f(n+1)=f(n)+f(1)=(n+1)f(1)
$$证毕.
7$$
(f(x+l)=f(x))\to(f(x-l)=f(x))
$$
因此有 $f(l)=f(0), f(-l)=f(0)$ , 自然就是常函数.
8反证法.
若是, 则有$$
\begin{aligned}
\sin (x+l)^2&=\sin ...
(史济怀) 数学分析教程上册第 3 版-练习题 2.2
1利用定理 2.2.2 即可.
2将多项式方程按次数排序 (一次多项式, 两次多项式$\cdots$) , 显然, 每个次数多项式方程的解是可数的, 而多项式方程所有的次数是可数的. 根据定理 2.2.2 , 代数数是可数的.
3按区间中间与零点的距离排序, 右边优先.
4将 $[0, 1]$ 间所有数换成二进制小数即可.
5显然 $x$ 无法在这个排列中找到, 因此 $\mathrm{R}$ 不可数.
6考虑一个直线集合 $L$ .首先我们选定一条直线 $l$ , 找到另一条直线 $l'$ 使得 $l'\parallel l$ , 同时 $l'\not\in L$ .这是容易找到的, 因为与 $l$ 垂直的直线上的点是不可数的, 而 $L$ 是可数集, 那么说明与 $l$ 垂直的直线上必然存在一个点使得过该点的平行于 $l$ 的直线 $l'$ 不属于 $L$ . 从而我们可以得知, $L$ 中的其他直线最多与 $l'$ 有一个交点. 那么将这些交点也划为一个集合 $P$ (交点集) , 这个集合显然是至多可数的, 而 $l'$ 上有不可数个点, 这说明必然有点不被 $L$ 中的直线覆 ...
(史济怀) 数学分析教程上册第 3 版-练习题 2.1
2用数学归纳法可以证明 $f^n(a)=a$ .
4(1)既然是单射, 那么就有 $|f(A)|=|A|$ ($|A|$ 指的是这个集合中的元素个数) . 而又有 $f(A)\subseteq A$ .那么只能有 $f(A)=A$ .
(2)上面的讨论同样说明映射 $f$ 是满射. 也就是说 $f$ 是双射, 自然 $f^{-1}$ 存在.
(3)$$
\mathrm A^n_n=n!
$$
5先对这个集合的元素制定一个符号, 数字 $i$ 就代表第 $i$ 个元素.
那么只需令 $f$ 为$$
f(i)=n-i+1
$$即可.
(史济怀) 数学分析教程上册第 3 版-练习题 1.11
1(1)等价于
$$
\lim_{n\to \infty}\frac{1/n}{\ln(n/(n-1))}
$$
由 1.6 节练习题 10 可得$$
\lim_{n\to \infty}\frac{1/n}{\ln(n)-\ln(n-1)}=\lim_{n\to\infty}\frac{1/n}{1/n+\varepsilon_n-\varepsilon_{n-1}}=1
$$
(3)等价于
$$
\lim_{n\to\infty}\frac{1/\sqrt{n}}{\sqrt{n}-\sqrt{n-1}}=\lim_{n\to\infty}1-\frac{\sqrt{n}}{\sqrt{n-1}} = 0
$$
(4)等价于
$$
0\leqslant\lim_{n\to\infty}\frac{\sqrt{n}}{n\sqrt{n}-(n-1)\sqrt{n-1}}=\lim_{n\to\infty}\frac{\sqrt n}{(n-1)\sqrt{n-1}+\sqrt n}\leqslant\lim_{n\to\infty}\frac{\sqrt{n}}{n\sqrt{n-1 ...
《强化学习》(第 2 版) 习题 5
5.1因为 $20,21$ 这两个状态下玩家会停牌, 而此时赢庄家的概率会很高, 因此价值较大. 而小于 $20$ 时, 要牌可能会导致爆牌, 因此较低.
5.2我觉得不会. 应当都会收敛到真实值.
5.3不会画, 懒得画.
5.4只需修改 $\mathrm{average}$ 函数即可. 定义一个变量为 $pre\text -avg$ 储存之前的平均数, 然后定义 $\mathrm{average}$ 函数为
123def average(G, pre-avg): n = len(Returns) return avg + (G - avg) / n
即可.
5.5首次访问是 $10$, 每次访问是 $5.5$.
5.6给定起始状态与起始动作 $S_t, A_t$ , 后续的状态-动作轨迹 $S_{t+1},A_{t+1},A_{t+1},\dots,S_T$ 在策略 $\pi$ 下的概率是
$$
\Pr\{S_{t+1},A_{t+1},A_{t+1},\dots,S_T\mid S_t, A_t,A_{t+1\colon T-1}\sim\pi\}=p(S_{t+1 ...
(史济怀) 数学分析教程上册第 3 版-练习题 1.10
2(1)只需找到对应的子列 $\{a_{k_n}\}$ , 然后运用极限的四则运算即可.
(2)由 1.8 节得 $\inf_{k\geqslant n}-a_k=-\sup_{k\geqslant n}a_k$ . 因此等式显然成立.
(3) $a_n>a^*-\sqrt\epsilon, b_n>b^*-\sqrt\epsilon$ , 于是就有 $a_nb_n>a_*b_*$ , 第一个左边不等式显然成立. 而又有
$$
\mathop{\lim\inf}_{n\to\infty}a_nb_n\leqslant\mathop{\lim\inf_{n\to\infty} a_nb^*}=b^*\mathop{\lim\inf a_n}_{n\to\infty}
$$
显然第一个右边不等式也成立. 利用同样方法可以证明接下来的不等式.
(4)同 (1).
3依题意得存在 $N, n>N$ 时有 $a_n