Chap 10 - On-Policy的近似控制

第九章是在讲 prediction 问题，也就是如何对 value function 估值，这一章主要在其基础上关注 control 问题，也就是结合了 policy improvement 和 action select 的问题。

10.1 Episode Semi-gradient Control

这一节对 Q 函数进行估计： $\overset{q}{^} \approx q_{π}$ ，同样也是关于权向量 $w$ 的参数化函数，此时用于训练的样本由前一节的 $S_{t} \mapsto U_{t}$ 变为 $S_{t}, A_{t} \mapsto U_{t}$ 。

对于 one-step sarsa，梯度更新式为：

w_{t + 1} ≐ w_{t} + α [R_{t + 1} + γ \overset{q}{^} (S_{t + 1}, A_{t + 1}, w_{t}) - \overset{q}{^} (S_{t}, A_{t}, w_{t})] \nabla \overset{q}{^} (S_{t}, A_{t}, w_{t})

为了构成 control 问题，需要将以下几步结合起来：

action-value prediction
policy improvement
action selection

10.2 n-step Semi-gradient Sarsa

令 $U_{t} = G_{t : t + n}$ ，即为 n-step semi-gradient sarsa 算法，其中

G_{t : t + n} ≐ R_{t + 1} + γ R_{t + 2} + \dots + γ^{n - 1} R_{t + n} + γ^{n} \overset{q}{^} (S_{t + n}, A_{t + n}, w_{t + n - 1})

更新式为

w_{t + n} ≐ w_{t + n - 1} + α [G_{t : t + n} - \overset{q}{^} (S_{t}, A_{t}, w_{t + n - 1})] \nabla \overset{q}{^} (S_{t}, A_{t}, w_{t + n - 1})

10.3 Average Reward: A New Problem Setting for Continuing Tasks

为满足『有限马尔可夫决策过程（MDP）』中的『有限』这一条件，我们之前是采用了 episodic setting（片段式）以及 discounted setting（带削减系数）两种方案，这里再介绍一种新的方案—— average reward setting 。

与 discounted setting 类似，average reward setting 也是不停止地与环境交互，用于没有开始、终止状态的连续型问题。
与 discounted setting 不同，average reward setting 没有削减系数，对任何时刻 reward 的重视程度一致。

在 average reward setting 中，策略 $π$ 的好坏程度由 reward 的平均情况决定（而不是之前的总期望收益）：

r (π) ≐ h \to \infty lim \frac{1}{h} t = 1 \sum h E [R_{t} ∣ A_{0 : t - 1} \sim π] = t \to \infty lim E [R_{t} ∣ A_{0 : t - 1} \sim π] = s \sum μ_{π} (s) a \sum π (a ∣ s) s^{'}, r \sum p (s^{'}, r ∣ s, a) r

其中 $μ_{π} (s) ≐ t \to \infty lim Pr {S_{t} = s ∣ A_{0 : t - 1} \sim π}$ 为稳态分布，并且假定对于任意策略 $π$ 都有 $μ_{π}$ 存在。称这个性质为『遍历性（ergodicity）』。

补充：上式第 1 行到第 2 行其实用的是数学分析里的一个性质：

$lim_{n \to \infty} a_{n} = a \Rightarrow lim_{n \to \infty} \frac{a _{1} + a _{2} + \dots + a _{n}}{n} = a$

遍历性意味着 MDP 的开始位置以及任何早期决策带来的影响都只是暂时性的，长期而言，期望收益仅取决于策略和状态转移概率。

$μ_{π}$ 有个特点，根据策略 $π$ 执行某个 action 所进入的新状态仍为同一分布：

s \sum μ_{π} (s) a \sum π (a ∣ s) p (s^{'} ∣ s, a) = μ_{π} (s^{'})

在 average reward setting 中，return 的定义为

G_{t} ≐ R_{t + 1} - r (π) + R_{t + 2} - r (π) + R_{t + 3} - r (π) + \dots

称这种 return 为 differential return，对应的 value function 为 differential value function 。

v_{π} (s) q_{π} (s, a) v_{*} (s) q_{*} (s, a) = a \sum π (a ∣ s) r, s^{'} \sum p (s^{'}, r ∣ s, a) [r - r (π) + v_{π} (s^{'})] = r, s^{'} \sum p (s^{'}, r ∣ s, a) [r - r (π) + a^{'} \sum π (a^{'} ∣ s^{'}) q_{π} (s^{'}, a^{'})] = a max r, s^{'} \sum p (s^{'}, r ∣ s, a) [r - π max r (π) + v_{*} (s^{'})] = r, s^{'} \sum p (s^{'}, r ∣ s, a) [r - π max r (π) + a^{'} max q_{*} (s^{'}, a^{'})]

同样可定义差值形式的 TD error：

δ_{t} δ_{t} ≐ R_{t + 1} - \overset{ˉ}{R}_{t + 1} + \overset{v}{^} (S_{t + 1}, w_{t}) - \overset{v}{^} (S_{t}, w_{t}) ≐ R_{t + 1} - \overset{ˉ}{R}_{t + 1} + \overset{q}{^} (S_{t + 1}, A_{t + 1} w_{t}) - \overset{q}{^} (S_{t}, A_{t}, w_{t})

10.4 Deprecating the Discounted Setting

在本章背景下，原先的 discounted setting 存在一些问题（下面会讲），所以需要用 average reward setting 来取代 discounted setting 。

假设有一段没有起始点和终点的 episode ，下面证明两种方案的评价值是成正比的：

可以看出，在 on-policy 分布下， $J (π)$ 和 $r (π)$ 成正比关系，然而通过 $r (π)$ 对策略优劣的排序结果是固定的，显然 $J (π)$ 选出的策略顺序也相同，这说明削减系数 $γ$ 对于决策选择行动没有实质性的影响，discounted setting 在这时便失去了一些使用价值，所以需要做出一些改变。

10.5 n-step Differential Semi-gradient Sarsa

在 average reward setting 下，可定义 n-step TD return 为：

G_{t : t + n} ≐ R_{t + 1} - \overset{ˉ}{R}_{t + 1} + \dots + R_{t + n} - \overset{ˉ}{R}_{t + n} + \overset{q}{^} (S_{t + n}, A_{t + n}, w_{t + n - 1})

同时也有 n-step TD error ：

δ_{t} ≐ G_{t : t + n} - \overset{q}{^} (S_{t}, A_{t}, w)

📚 ZHANGWP

Explorer

Chap 10 - On-Policy的近似控制

10.1 Episode Semi-gradient Control

10.2 n-step Semi-gradient Sarsa

10.3 Average Reward: A New Problem Setting for Continuing Tasks

10.4 Deprecating the Discounted Setting

10.5 n-step Differential Semi-gradient Sarsa

Graph View

Table of Contents

Backlinks