《强化学习》(第 2 版) 习题 1

发表于2021-06-17|更新于2021-08-14|机器学习强化学习《强化学习》

|阅读量:

1.1 左右互搏

(1)

一开始应该收敛得很慢.

(2)

应该不会, 我觉得它应该会收敛到必定不输的那个策略.

1.2 对称性

(1)

可以在更新价值表格时同时更新其对称位置.

(2)

应该会更快收敛.

(3)

不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑.

(4)

不一定, 这与对手的策略有关.

1.3 贪心策略

(1)

如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好.

(2)

贪心难以收敛到最优策略.

1.4 从试探中学习

我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优.

1.5 其他提升方法

(1)

不能.

(2)

直接几个 if 判断就好了.

文章作者: 云玩家

文章链接: http://yunist.cn/ML/RL/reinforcement_learning/1/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自云玩家！

机器学习强化学习习题

相关推荐

《强化学习》(第 2 版) 习题 3

《强化学习》(第 2 版) 习题 4

《强化学习》(第 2 版) 习题 2

《强化学习》(第 2 版) 习题 5

《强化学习》(第 2 版) 习题 6

强化学习类论文常用表达

数据库加载中