4.1

qπ(11,down)=1

4.2

都是 20 .

事实上只需要算出第一个 20 就可以了, 状态 13 与状态 15 具有相同的状态价值, 状态 13 的动态特性变化并不影响它的价值 (down 都是 20) .

4.3

qπ(s,a)=˙Eπ[GtSt=s,At=a]=Eπ[Rt+1+γGt+1St=s,At=a]=Eπ[Rt+1+γqπ(St+1,At+1)St=s,At=a]=s,rp(s,rs,a)[r+γaπ(as)qπ(s,a)]
qk+1(s,a)=˙Eπ[Rt+1+γqk(St+1,At+1)St=s,At=a]=s,rp(s,rs,a)[r+γaπ(as)qk(s,a)]

4.4

“如果 old-actionπ(s) “ 改为 “如果 s,rp(s,rs,π(s))[r+γV(s)]s,rp(s,rs,old-action)[r+γV(s)]“ .

4.5

  1. “任意设定 V(s)R “ 改为 “任意设定 Q(s,a)R“ .
  2. “对每一个 sS 循环” 改为 “对每一个 sS,aA 循环” ,
  3. ‘策略评估’ 中循环的内容改为
qQ(s,a)Q(s,a)s,rp(s,rs,a)[r+γaπ(as)Q(s,a)]Δmax(Δ,|qQ(s,a)|)
  1. ‘3. 策略改进’ 中 “π(s)argmaxas,rp(s,rs,a)[r+γV(s)]“ 改为 “π(s)argmaxaQ(s,a)

4.6

3: π(s) 不能只取定值 a , 要根据题目要求设定.

2: 好像没啥要改的…

1: 初始化需要多弄一个参数 ε .

4.7

这训练方法效率也忒慢了… 于是我就偷懒无奈放弃了, 只写了策略评估的部分 (真的不是我懒啊喂).

杰克租车问题

4.8

首先确定一点, 在赌资为 50 美元时, q(50,50)=v(50)>v(s),s<50 . 如果赌资少于 50 , 当达到 50 时就相当于成功了一小半. 如果赌资大于 50 (大一点), 在输的时候最好也是输到 50 美元, 好有一个退路. 因此就有了如此奇怪 (不连续) 的策略. 当然 25 美元, 75 美元也是特殊的两个情况, 一个 (25 美元) 堵上全部赌资 (赢了的话) 刚刚好达到 “成功了一小半的境地”, 一个 (75 美元) 堵上 25 美元赢了的话刚刚好胜利, 输了还有 50 美元, 赢得概率还是很大, 25 美元算是次优情况, 而 75 美元是更优情况 (这里的优指的是比之前的情况的优势大了很多). 因此其他情况都在考虑输和赢对这 3 种情况的靠拢.

4.9

赌徒问题

是稳定的.

4.10

qk+1(s,a)=˙maxaEπ[Rt+1+γqk(St+1,At+1)St=s,At=a,At+1=a]=maxas,rp(s,rs,a)[r+γqk(s,a)]