解决 MathJax 与 Hexo 冲突问题
将 Hexo 升级到 5.0 后, 发现 MathJax 与 Hexo 仍然有冲突. 然而网上大部分的方法对 5.0 版本的 Hexo 都没有用.
摸索许久后, 找到了一个比较不错的方法解决该问题. 即在公式前后加上 与 , 即
12345{% raw %}$$xxxxxx (公式内容)$${% endraw %}
就可以完美解决.
这绝对不是水文.
DQN 算法
论文原文: Playing Atari with Deep Reinforcement Learning .
DQN (Deep Q-Networks) 算法, 简单来说就是 Deep Learning + Q Learning.
Q LearningQ Learning 实际上是维护一个 $Q$ 值表, 这个表可以认为是状态 $s$ 与动作 $a$ 的一个函数 $Q(s,a)$ , 其输出表示在状态 $s$ 下采用动作 $a$ 所获得的期望回报. 通过查询 $Q$ 值表, 就可以找出在某个状态 $s_t$ 下的最佳动作 $a_t$ . Q Learning 算法的要点就在于得到一个足够真实的 $Q$ 值表. 而 $Q$ 值表的更新, 则基于 Bellman 方程 (详情可见RL 基本概念).
DQNDQN 的核心思想与 Q Learning 一样, 但区别就在于 $Q$ 函数. 在 Q Learning 中, $Q$ 函数是 $Q$ 值表, 也即一个个状态-动作对与期望回报的一一对应, 也就是离散的, 而在一些环境中 (比如 Atari 2600 games) 状态几乎是无穷多的, ...
数学分析练习题 (一)
一问题设 $n$ 为正整数, 且 $x\geqslant 0$ , $y\geqslant 0$ . 求证: 当 $n>1$ 时,$$\frac{x^n+y^n}{2}\geqslant\left(\frac{x+y}{2}\right)^n,$$等号当且仅当 $x=y$ 时成立.
证明当 $n=1$ 时, 显然成立.
假设 $n=k$ 时命题成立, 那么有$$\begin{aligned}\left(\frac{x+y}{2}\right)^{k+1}&=\left(\frac{x+y}{2}\right)^{k}\frac{x+y}{2}\\&\leqslant\left(\frac{x^k+y^k}{2}\right)\frac{x+y}{2}\\&=\frac{x\cdot x^k+x\cdot y^k+y\cdot x^k+y\cdot y^k}{4}\end{aligned}$$又由于$$(y-x)y^k\geqslant(y-x)x^k$$对任意 $x,y$ 皆成立, 因此$$\begin{aligned}(y-x)y^k&\geqs ...
为你的博客添加一个播放器
话不多说, 直接开整.
播放器文件下载并引入地址在 https://github.com/cnyist/player .
下载下来后放入 source 目录中 (主题或 Hexo 自带的皆可) , 然后用 iframe 引入 index.html 文件
1iframe(name="player", id="player", src="/player/", frameborder="0", onload="this.width=player.jp_container_N.scrollWidth;$('.songlist__item').each(function(){generate($(this).attr('id'))});", style="z-index:100; position:fixed; left:0px; bottom:0 ...
π 为什么会等于四
我是在差不多三年前看到过这张图的. 曾经对极限完全不了解的我, 简单的认为由于边长一直不变, 所以不能这么算. 前几天有个同学的问题突然又激发了我对这个问题的思考, 突然意识到了之前的我对这个问题理解的浅显, 弄明白了这样论证的问题所在以及它为什么看起来如此正确.
为什么是错误的?首先, 我们自然知道 $\pi=3.1415926\cdots$ , 而上面的论证中不断的重复折叠所得到的周长, 最终都不会收敛于圆的周长 (一直等于 $4$) . 但是这里就会有人疑惑了: 为什么最终得到的 $4$ 不是圆的周长呢? 明明折到最后就是个圆呀? 而这, 其实源于我们对图中表述 不断的重复 和 一个图形怎样才是圆形 的理解的混乱所致.
什么是不断的重复?在数学中, 有一个对应的概念, 即为极限. 重复次数设为 $n$ , 然后 $\lim n\to\infty$ 就可以认为是不断的重复了.
一个图形怎样才是圆形?为了方便表述, 我们只考虑一个单位半圆 (半径为 $1$) 的圆弧
通过适当的建系, 可以通过一个函数来描述它, 我们用 $f(x)$ 来表示这个半圆. 现在, 我们列出两个关于判定 ...
强化学习类论文常用表达
由于自己英文实在是差, 所以把一些经常在论文里见到的却不太认得的表达记下来. 许多数学概念都有维基百科的相关链接, 要进去得 FQ , 如果你的浏览器可以装插件, 建议使用集装箱.
表达
词性
意义
probability distribution
n.
概率分布
discounted
adj.
有折扣的
finite
n.
有限的
infinite-horizon
n.
无限时间跨度
factor
n.
因子
denote
v.
表示
stochastic
adj.
随机的
standard definitions
n.
标准定义
unnormalized
adj.
非规范的
frequency
n.
频率
notation
n.
符号
imply
v.
暗示
nonnegative
adj.
非负的
guarantee
v.
保证
constant
adj.
不变的
deterministic
adj.
决定性
nonzero
adj.
非零的
algorithm
n.
算法
converge
v. ...
理解皮亚诺公理第五条
先上皮亚诺公理:
0 是自然数;
每一个确定的自然数 a,都有一个确定的后继数 a’,a’ 也是自然数;
对于每个自然数b、c,b = c 当且仅当 b 的后继数 = c 的后继数;
0 不是任何自然数的后继数;
任意关于自然数的命题,如果证明:它对自然数 0 是真的,且假定它对自然数 a 为真时,可以证明对 a’ 也真。那么,命题对所有自然数都真。
第五条公理事实上保证了数学归纳法的正确性. 但是看到这里也许就会有些疑惑, 数学归纳法的成立是自然的呀? 为什么还需要一个第五公理? 对于自然数 $0$ 成立, 并且可以从 $a$ 正确推出 $a’$ 成立, 不就能从 $0$ 开始一直推然后遍历整个自然数集么?
但事实上并非如此, 我们之所以会认为 “能从 $0$ 开始一直推然后遍历整个自然数集” 是因为我们被现有的自然数集的概念束缚住了, 认为某个数 $a$ 一定能由 $0$ 一直取后继数得到. 但是我们仔细查看公理, 并没有说明 (事实上也无法证明) 一个自然数一定可以由 $0$ 一直取后继数得到. 并且虽然公理 4 说明了 $0$ 不是任何自然数的后继数, 但是这并不代 ...
Gym 中的 gym.spaces
每了解到一种就来这里做个记录.
Box表示一个 n 维框, 即由 n 个数字描述这个空间.
Box.high打印一个一维数组, 其中元素值为各个描述这个空间的数字的极大值.
Box.low打印一个一维数组, 其中元素值为各个描述这个空间的数字的极小值.
Box.sample()从可能的数值中随机采样.
Discrete表示固定范围的非负数, 可以看做一些非负离散值的集合.
Discrete.n可能的数值的总数.
Discrete.sample()从可能的数值中随机采样.
Anaconda + PM2 部署 Jupyter 在服务器
背景最近学习发现电脑换来换去很麻烦, 然后就想到要把 Jupyter 部署在云服务器上, 正好服务器放在腾讯云也吃灰很久了, 就拿来玩一玩. 这里的所有操作都基于 Centos , 当然 Ubuntu 也适用, 但是要将教程中所有 root 换成 home/用户名 , 比如 home/ubuntu .
部署 Jupyter安装 Anaconda可以前往清华镜像源选择对应版本, 找到你想要的 Anaconda3 版本, 通过下面的指令进行下载
1wget https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/Anaconda3-2020.07-Linux-x86_64.sh # Anaconda3-2020.07-Linux-x86_64.sh 可以更换成你自己选择的版本
然后安装
1bash Anaconda3-2020.07-Linux-x86_64.sh # 同样更换你自己选择的版本
然后一路 enter / yes 就完事.
添加环境变量接着添加环境变量.
1sudo vi /etc/profile
输入密码后进入文件 ...
GAE 算法
准备众所周知, 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作$$ g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1}$$ 其中 $\Psi$ 可以是$$\begin{aligned} 1.;&\sum\nolimits_{t=0}^\infty r_t&轨迹的总回报\\ 2.;&\sum\nolimits_{t’=t}^\infty r_{t’}&动作后轨迹的总回报\\ 3.;&\sum\nolimits_{t’=t}^\infty r_{t’}-b(s_t)&基线形式\\ 4.;&Q^{\pi}(s_t,a_t)&状态-动作价值函数\\ 5.;&A^{\pi}(s_t,a_t)&优势函数\\ 6.;&r_t+V^{\pi}(s_{t+1})-V^\pi(s_t)&\text{TD},残差 \end{al ...