《强化学习》(第 2 版) 习题 1
1.1 左右互搏
(1)
一开始应该收敛得很慢.
(2)
应该不会, 我觉得它应该会收敛到必定不输的那个策略.
1.2 对称性
(1)
可以在更新价值表格时同时更新其对称位置.
(2)
应该会更快收敛.
(3)
不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑.
(4)
不一定, 这与对手的策略有关.
1.3 贪心策略
(1)
如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好.
(2)
贪心难以收敛到最优策略.
1.4 从试探中学习
我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优.
1.5 其他提升方法
(1)
不能.
(2)
直接几个 if
判断就好了.
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 云玩家!