两种回报函数

在强化学习中, 有两种常用的回报函数, 即有限无折损回报 ( $finite-horizon undiscount return$ ) , 它将有限时间内每个时刻的奖赏加起来作为总回报:

R (τ) = \sum_{t = 0}^{T} r_{t}

与无限有折损回报 ( $infinite-horizon discount return$ ) , 将往后至无穷的时间内每个时刻的奖赏加权后求和作为总回报.

R (τ) = \sum_{t = 0}^{\infty} γ^{t} r_{t}

其中

γ \in (0, 1)

, 是一个参数.

有限无折损回报很容易理解, 那么为什么会有无限有折损回报这种形式呢? 这有着直觉和数学上的双重意义.

虽然这两种函数在数学上差别很大, 但在 $deep RL$ 中, 这两者往往会混用: 用无折扣来最优化参数, 同时在估算价值函数的时候使用有折扣.

价值函数

价值函数有两种, 一种是价值函数, 一种是动作-价值函数. 它们俩的区别就在于当前动作是否给出

价值函数

V^{π} (s) = \underset{τ \sim π}{E} [R (τ) ∣ s_{0} = s]

动作-价值函数

Q^{π} (s, a) = \underset{τ \sim π}{E} [R (τ) ∣ s_{0} = s, a_{0} = a]

可以显而易见的看到差别就在于

a

是否被指定.

强化学习的目的就在于求出最优策略, 我们将最优策略下的价值函数和动作价值函数用 $V^{*} (s)$ 与 $Q^{*} (s, a)$ 来表示, 则有

V^{*} (s) = max_{π} \underset{τ \sim π}{E} [R (τ) ∣ s_{0} = s] Q^{*} (s, a) = max_{π} \underset{τ \sim π}{E} [R (τ) ∣ s_{0} = s, a_{0} = a]

同时容易得出以下两个等式

V^{π} (s) = \underset{a \sim π}{E} [Q^{π} (s, a)] V^{*} (s) = max_{a} Q^{*} (s, a)

这里要注意, 在默认的情况下, 回报函数

R (τ)

一般是指无限有折损回报 (

infinite-horizon discount return

) , 如果使用的是有限无折损回报, 那么还要接受一个额外的参数: 时间.

Bellman 方程给出了求解最优策略的过程. 对于某个策略 $π$ , 我们有

V^{π} (s) = \underset{a \sim π, s^{'} \sim P}{E} [r (s, a) + γ V^{π} (s^{'})] Q^{π} (s, a) = \underset{s^{'} \sim P}{E} [r (s, a) + γ \underset{a^{'} \sim π}{E} [Q^{π} (s^{'}, a^{'})]]

　用时对于最优策略, 我们有

V^{*} (s) = max_{a} \underset{s^{'} \sim P}{E} [r (s, a) + γ V^{π} (s^{'})] Q^{*} (s, a) = \underset{s^{'} \sim P}{E} [r (s, a) + γ max_{a^{'}} Q^{π} (s^{'}, a^{'})]

其中

s^{'} \sim P

是

s^{'} \sim P (\cdot ∣ s, a)

的缩写,

a \sim π

与

a^{'} \sim π

分别是

a \sim π (\cdot ∣ s)

与

a^{'} \sim π (\cdot ∣ s^{'})

的缩写.

优势方程 $A^{π} (s, a)$ 考虑了某个动作 $a$ 在当前状态 $s$ 以及采取策略 $π$ 下到底有多好.

A^{π} (s, a) = Q^{π} (s, a) - V^{π} (s)