RL 基本概念
两种回报函数
在强化学习中, 有两种常用的回报函数, 即有限无折损回报 (
与无限有折损回报 (
其中
有限无折损回报很容易理解, 那么为什么会有无限有折损回报这种形式呢? 这有着直觉和数学上的双重意义.
- 直觉上, 我们会将眼前利益看得更重要, 而未来的利益则显得没那么重要 (
) . - 数学上, 无限无折损回报会无法收敛到一个有限的值, 而乘上
这个折扣因子 ( ) 可以很好的解决这个问题.
虽然这两种函数在数学上差别很大, 但在
价值函数
价值函数有两种, 一种是价值函数, 一种是动作-价值函数. 它们俩的区别就在于当前动作是否给出
价值函数
动作-价值函数
可以显而易见的看到差别就在于
强化学习的目的就在于求出最优策略, 我们将最优策略下的价值函数和动作价值函数用
同时容易得出以下两个等式
这里要注意, 在默认的情况下, 回报函数
Bellman 方程
Bellman 方程给出了求解最优策略的过程. 对于某个策略
用时对于最优策略, 我们有
其中
优势方程
优势方程
本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来自 云玩家!