两种回报函数

在强化学习中, 有两种常用的回报函数, 即有限无折损回报 () , 它将有限时间内每个时刻的奖赏加起来作为总回报:

无限有折损回报 () , 将往后至无穷的时间内每个时刻的奖赏加权后求和作为总回报.

其中, 是一个参数.

有限无折损回报很容易理解, 那么为什么会有无限有折损回报这种形式呢? 这有着直觉和数学上的双重意义.

  • 直觉上, 我们会将眼前利益看得更重要, 而未来的利益则显得没那么重要 () .
  • 数学上, 无限无折损回报会无法收敛到一个有限的值, 而乘上这个折扣因子 () 可以很好的解决这个问题.

虽然这两种函数在数学上差别很大, 但在中, 这两者往往会混用: 用无折扣来最优化参数, 同时在估算价值函数的时候使用有折扣.

价值函数

价值函数有两种, 一种是价值函数, 一种是动作-价值函数. 它们俩的区别就在于当前动作是否给出

价值函数

动作-价值函数

可以显而易见的看到差别就在于是否被指定.

强化学习的目的就在于求出最优策略, 我们将最优策略下的价值函数和动作价值函数用来表示, 则有

同时容易得出以下两个等式

这里要注意, 在默认的情况下, 回报函数一般是指无限有折损回报 () , 如果使用的是有限无折损回报, 那么还要接受一个额外的参数: 时间.

Bellman 方程

Bellman 方程给出了求解最优策略的过程. 对于某个策略, 我们有

 用时对于最优策略, 我们有

其中的缩写,分别是的缩写.

优势方程

优势方程考虑了某个动作在当前状态以及采取策略下到底有多好.