1.1 左右互搏

(1)

一开始应该收敛得很慢.

(2)

应该不会, 我觉得它应该会收敛到必定不输的那个策略.

1.2 对称性

(1)

可以在更新价值表格时同时更新其对称位置.

(2)

应该会更快收敛.

(3)

不应该. 因为如果对手有偏好, 那么我们对对称的位置应该有不同的考虑.

(4)

不一定, 这与对手的策略有关.

1.3 贪心策略

(1)

如果是一开始就贪心, 当然是更差 (根本没有训练) . 如果已经收敛, 就会玩得更好.

(2)

贪心难以收敛到最优策略.

1.4 从试探中学习

我认为从试探中学习的方式应该… 不太正确. 应该来说无论是学习还是胜率考虑都是不从试探中学习的更优.

1.5 其他提升方法

(1)

不能.

(2)

直接几个 if 判断就好了.