Chap 5 - 蒙特卡罗方法

本章主要讲强化学习中的蒙特卡罗方法。

Monte Carlo Methods(Wiki):

蒙特卡罗方法，也称统计模拟方法，是1940年代中期由于科学技术的发展和电子计算机的发明，而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。

Monte Carlo Methods:

在本书中，蒙特卡罗方法具体指基于样本返回值的均值，用于解决强化学习问题的方法。

由于蒙特卡罗方法基于样本返回值来解决问题，所以需要得到明确的反馈值，因此本章主要基于片段式任务（episode tasks）进行探讨（并且 $γ = 1$ ），以 episode 为单位，当一个片段结束，才去通过整个片段的反馈来进行相应调整。

5.1 Monte Carlo Prediction

在我们使用蒙特卡罗方法估计 return 时，一般有两种主要的统计方法：

first-visit MC method：

在一个 episode 中，对于每个状态 s （或「状态-行动组合」 s-a），只考虑第一次进入 s （或 s-a）之后的 return 来对 $v_{π} (s)$ (or $q_{π} (s, a)$ ) 进行估计，往后再遇到 s（或 s-a）则不再统计。

every-visit MC method：

every-visit 总体与 first-visit 相似，唯一的差别在于，在一个 episode 中，所有以 s （或 s-a）为出发点的 episode 都会对其 return 进行统计，进而用于估计 $v_{π}, q_{π}$ 。

根据大数定律，容易分析知，他们均能收敛到 $v_{π} (s)$ 。

在一些牌类游戏中，原则上我们是可以将其视作有限 MDP 问题，比如我们将每局牌视作一个 episode ，然后根据「赢 / 输 / 平」给定奖励值 +1 / -1 / 0 ，然后就按我们之前讲的方法来做。

然而实际操作中，我们很难求出这个问题背景下的「状态转移概率」，简单而言，即使我们完全清楚环境的变化机制 $p (s^{'}, r ∣ s, a)$ ，也很难把问题背景理解「透彻」，我们很难一一分析列举出所有可能的情况，以及他们之间的关系（虽然理论上是肯定可以穷举出来的），所以需要用到蒙特卡罗方法直接根据大量「经验」来暴力估计出我们想要的东西。通俗地讲，就是：「我们虽然没有去具体分析环境的变化机制，但是不用想那么多，照着以前的经验做就是了」。

5.2 Monte Carlo Estimation of Action Values

问题

如果给定一个策略，在这个策略下去模拟，可能会有不少「状态-行动组合（state-action pair）」从来没尝试过，也就是某些状态的样本量可能为 0 ，对于随机模拟方法而言，这样估计出来的东西显然会有偏差，就像第二章讨论的那样，得多做一些「探索（exploration）」。

思路

exploration start:

既然策略 $π$ 是给定的，在模拟过程中，基于这个策略一步一步行动下去，我们很难改变什么，唯一能任意指定的，就是初始状态，所以在生成模拟片段时，可以考虑随机指定任意状态为初始状态，这样只要我们生成的模拟片段足够多，一样能确保每个状态都能被我们访问足够多次。我们称这样指定的初始状态为 exploration start 。

不过，这个方法有相当大的局限性：

在一些特殊情况下，我们必须得跟环境交互才能学习策略，这时候便不能指定初始状态了
操作起来麻烦，而且依然考虑得不够全面

5.3 Monte Carlo Control

目标

通过蒙特卡罗方法来估计最优策略。

方法

上一章讲过，GPI 模型非常通用，能够描述绝大多数强化学习方法，而这一章我们依然是基于 GPI 模型，通过「值的估计」和「策略改进」这两个环节交替作用，最终得到最优策略。

π_{0} E q_{π_{0}} I π_{1} E q_{π_{1}} I π_{2} E \dots I π_{*} E q_{*}

Policy evaluation: 使用蒙特卡罗方法来根据经验模拟估计，而不是像上一章的方法直接计算。这一小节的算法需要有 exploring start 。
Policy improvement: 跟上一章一样，采用贪心策略来改进当前策略 $π (s) ≐ a max q (s, a)$ 。

Monte Carlo ES (Monte Carlo with Exploring Starts)

下面是带有「探索初始态」的蒙特卡罗方法的伪代码：

5.4 Monte Carlo Control without Exploring Starts

目标

之前提到，exploration start 这样的条件，仍然有不少缺点，缺乏泛用性，我们需要其他的办法。

方法

我们先提两个概念：

On-policy: 直接对我们的决策策略进行估值和改进。
Off-policy: 结合一个其他的策略，来对我们的决策策略进行估值和改进。

这一小节我们先讲 On-policy 。

在 On-Policy 方法中，我们的策略一般得是「soft」的： $π (a ∣ s) > 0, \forall s \in S, a \in A (s)$ 。直白点讲，就是所有的情况都要被考虑到，即使某个 action 并不优秀，也不能直接将其选取概率设为 0 ，这样的策略显得不那么绝对，体现出一种「趋势性」：好的 action 更容易被选上，不好的 action 也有一定的机会。

$ε$ -soft policy:

若 a 为非贪心策略（exploration），则 $π (a ∣ s) = \frac{ε}{∣ A ( s ) ∣}$
若 a 为贪心策略（exploitation），则 $π (a ∣ s) = 1 - ε + \frac{ε}{∣ A ( s ) ∣}$

On-policy first-visit MC control

基于 On-policy 方法，我们可以给出下面的算法来估计最优策略：

policy improvement theorem:

GPI 模型并不要求我们的策略全程都是贪心策略，只需要「渐渐变得贪心」就可以了，在我们上面的算法中，我们的 $ε$ -soft 策略会渐渐变成一个 $ε$ -greedy 策略，并且可以证明，通过贪心方法确实能够改进 $ε$ -soft 策略，证明如下：

设 $π^{'}$ 为贪心改进后的策略，则有

π^{'} (a ∣ s) = {\frac{ε}{∣ A ( s ) ∣} 1 - ε - \frac{ε}{∣ A ( s ) ∣}, non - greedy, greedy

而原本的 $ε$ -soft 策略 $π$ ，我们记其概率分布为

π (a_{i} ∣ s) = {\frac{ε}{∣ A ( s ) ∣} + δ_{i} 1 - \frac{( ∣ A ( s ) ∣ - 1 ) ε}{∣ A ( s ) ∣} - \sum_{a_{i} \neq = a_{*}} δ_{i}, a_{i} \neq = a_{*}, a_{i} = a_{*}

接下来，可得

v_{π^{'}} (s) = a \sum π^{'} (a ∣ s) q_{π} (s, a) = \frac{ε}{∣ A ( s ) ∣} a \sum q_{π} (s, a) + (1 - ε) a max q_{π} (s, a)

记 $M = a max q_{π} (s, a)$ ，我们先证明不等式 $a max q_{π} (s, a) \geq a \sum \frac{π ( a ∣ s ) - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} q_{π} (s, a)$ ：

a \sum \frac{π ( a ∣ s ) - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} q_{π} (s, a) = \frac{π ( a _{*} ∣ s ) - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} M + a_{i} \neq = a_{*} \sum \frac{π ( a _{i} ∣ s ) - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} q_{π} (s, a_{i}) = \frac{1 - \frac{( ∣ A ( s ) ∣ - 1 ) ε}{∣ A ( s ) ∣} - \sum _{a_{i} \neq = a_{*}} δ _{i} - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} M + a_{i} \neq = a_{*} \sum \frac{δ _{i}}{1 - ε} q_{π} (s, a_{i}) = \frac{1 - ε}{1 - ε} M - \frac{1}{1 - ε} a_{i} \neq = a_{*} \sum δ_{i} M + \frac{1}{1 - ε} a_{i} \neq = a_{*} \sum δ_{i} q_{π} (s, a_{i}) = M - \frac{\sum _{a_{i} \neq = a_{*}} δ _{i}}{1 - ε} (M - q_{π} (s, a_{i})) \leq M = a max q_{π} (s, a)

将不等式代回前面，得到

v_{π^{'}} (s) \geq \frac{ε}{∣ A ( s ) ∣} a \sum q_{π} (s, a) + (1 - ε) a \sum \frac{π ( a ∣ s ) - \frac{ε}{∣ A ( s ) ∣}}{1 - ε} q_{π} (s, a) = \frac{ε}{∣ A ( s ) ∣} a \sum q_{π} (s, a) - \frac{ε}{∣ A ( s ) ∣} a \sum q_{π} (s, a) + a \sum π (a ∣ s) q_{π} (s, a) = v_{π} (s)

所以得出结论，对策略 $π$ 做出题述的改进后得到的 $π^{'}$ 确实要优于 $π$ 。

5.5 Off-policy Prediction via Importance Sampling

目标

在我们的问题中，目标策略经常是确定性的贪心策略（与 soft 相对，确定性策略选出的 action 很确定），这种情况下，我们若要使用 On-policy ，不得不又重新考虑 exploration start ，为了避免这个情况，我们要考虑一种 Off-policy 的方法。

与 On-policy 不同的是，我们去学习一个最优策略，并不一定要在调整这个策略的同时也跟着它走，这一节采用的 Off-policy 方法则是用一个「行为策略」来生成行动，来对我们的「目标策略」进行优化，这样的一个好处是，我们可以通过辅助性的行为策略来做出探索行动，而我们要学习的目标策略，就不用再因 exploration 而不得不加入一些不那么好的行动。

而将两个策略分开最重要的好处，正是我们可以通过 soft 的行为策略去生成探索 action ，而目标策略则保持「确定性」，解决了前面提出的问题，进一步加强了算法的泛用性。

目标策略 ( $π$ ): 被学习的策略
行为策略 ( $b$ ): 用来再学习过程中生成 actions 的策略

行为策略需要是完全已知的，并且需要能被目标策略覆盖： $π (a ∣ s) > 0 \Rightarrow b (a ∣ s) > 0$ ，即目标策略所有可能采取到的行动，在行为策略中其被选取的概率也必须大于 0 。

原理

重要性采样:

重要性采样（importance sampling）是统计学中估计某一分布性质时使用的一种方法。该方法从与原分布不同的另一个分布中采样，而对原先分布的性质进行估计。

易知，

E_{f} [x] = \int x f (x) d x = \int \frac{x f ( x )}{g ( x )} g (x) d x = E_{g} [\frac{f ( x )}{g ( x )} x]

我们称 $ρ = \frac{f ( x )}{g ( x )}$ 为重要性采样比例，这样，对于一个未知的分布 $f$ ，若已知分布 $g$ ，并且能求出比值 $\frac{f ( x )}{g ( x )}$ ，便能方便地在 $g$ 分布下对 $x$ 进行估计。

在我们这个问题中，因为有状态条件，所以应该求条件期望，易分析知条件期望同样适用：

E_{f} [x ∣ S = s] = \int x f (x ∣ s) d x = \int x \frac{f ( x ∣ s )}{g ( x ∣ s )} g (x ∣ s) d x = E_{g} [x \frac{f ( x ∣ s )}{g ( x ∣ s )} ∣ S = s] = E_{g} [ρ x ∣ S = s]

因此，对于我们具体的问题，我们可以按下面的方法来进行估计：

对于一个 episode ，其子序列的概率为

P_{π} {A_{t}, S_{t + 1}, A_{t + 1}, \dots, S_{T} ∣ S_{t}} = π (A_{t} ∣ S_{t}) p (S_{t + 1} ∣ S_{t}, A_{t}) π (A_{t + 1} ∣ S_{t + 1}) \dots p (S_{T} ∣ S_{T - 1}, A_{T - 1}) = k = t \prod T - 1 π (A_{k} ∣ S_{k}) p (S_{k + 1} ∣ S_{k}, A_{k}) P_{b} {A_{t}, S_{t + 1}, A_{t + 1}, \dots, S_{T} ∣ S_{t}} = b (A_{t} ∣ S_{t}) p (S_{t + 1} ∣ S_{t}, A_{t}) b (A_{t + 1} ∣ S_{t + 1}) \dots p (S_{T} ∣ S_{T - 1}, A_{T - 1}) = k = t \prod T - 1 b (A_{k} ∣ S_{k}) p (S_{k + 1} ∣ S_{k}, A_{k})

计算出重要性采样比例：

ρ_{t : T - 1} ≐ \frac{P _{π} { A _{t} , S _{t + 1} , A _{t + 1} , \dots , S _{T} ∣ S _{t} }}{P _{b} { A _{t} , S _{t + 1} , A _{t + 1} , \dots , S _{T} ∣ S _{t} }} = \frac{\prod _{k = t}^{T - 1} π ( A _{k + 1} ∣ S _{k} ) p ( S _{k + 1} ∣ S _{k} , A _{k + 1} )}{\prod _{k = t}^{T - 1} b ( A _{k + 1} ∣ S _{k} ) p ( S _{k + 1} ∣ S _{k} , A _{k + 1} )} = k = t \prod T - 1 \frac{π ( A _{k + 1} ∣ S _{k} )}{b ( A _{k + 1} ∣ S _{k} )}

从上面可以看出，我们只需要知道策略是怎样的，而无需去关心环境上的细节（也就是不用知道状态转移概率 $p$ ）

有了前面的准备，我们可以推出：

v_{π} (s) = E_{π} [G_{t} ∣ S_{t} = s] = E_{b} [ρ_{t : T - 1} G_{t} ∣ S_{t} = s]

两种估计方法

简单平均（Ordinary Importance Sampling）

$V (s) ≐ \frac{\sum _{t \in T (s)} ρ _{t : T (t) - 1} G _{t}}{∣ T ( s ) ∣}$
$T (s)$ : 访问到状态 s 的时间点集合
$T (t)$ : 以时间点 t 开始的 episode 的终止时间点
优点：无偏估计
缺点：方差较大，不稳定

加权平均（Weighted Importance Sampling）

$V (s) ≐ \frac{\sum _{t \in T (s)} ρ _{t : T (t) - 1} G _{t}}{\sum _{t \in T (s)} ρ _{t : T (t) - 1}}$
优点：方差较小
缺点：有偏估计（但是渐进无偏）

举例：简单平均有可能导致无穷大方差

首先，对于加权平均，我们易分析得：

如果以行动 left 收尾，显然会返回 $G_{t} = 1$ ，此时 $ρ = \frac{1}{0.5} = 2$ ，那么必然有 $V (s) = 1$
如果以行动 right 收尾，显然会返回 $G_{t} = 0$ ，此时 $ρ = 0$ ，易分析知 $V (s) = 0$

可以看出，加权平均下的估计是稳定的，方差很小。

而对于简单平均，由于

Var [V] = E [V - \overset{ˉ}{V}]^{2} = E [V^{2} - 2 V \overset{ˉ}{V} + \overset{ˉ}{V}^{2}] = E [V^{2}] - \overset{ˉ}{V}^{2}

因为 $\overset{ˉ}{V}$ 有限，我们只需讨论 $E [V^{2}]$ :

E [V^{2}] = = = E_{b} (t = 0 \prod T - 1 \frac{π ( A _{t} ∣ S _{t} )}{b ( A _{t} ∣ S _{t} )} G_{0})^{2} \frac{1}{2} \cdot 0.1 (\frac{1}{0.5})^{2} + \frac{1}{2} \cdot 0.9 \cdot \frac{1}{2} \cdot 0.1 (\frac{1}{0.5} \frac{1}{0.5})^{2} + \frac{1}{2} \cdot 0.9 \cdot \frac{1}{2} \cdot 0.9 \cdot \frac{1}{2} \cdot 0.1 (\frac{1}{0.5} \frac{1}{0.5} \frac{1}{0.5})^{2} + \dots 0.1 k = 0 \sum \infty 0. 9^{k} \cdot 2^{k} \cdot 2 = 0.2 k = 0 \sum \infty 1. 8^{k} = \infty

所以，从这个例子可以可以看出，简单平均是相当不稳定的。

5.6 Incremental Implementation

第二章讲过增量执行式，可以通过增量计算来节省内存并且提高计算速度，这个思路我们同样能用在这一章的算法里。

将 $ρ_{t : T (t) - 1}$ 简记作 $W_{k}$ ，即有 $V_{n} = \frac{\sum _{k = 1}^{n - 1} W _{k} G _{k}}{\sum _{k = 1}^{n - 1} W _{k}}$ ，记 $C_{n} = \sum_{k = 1}^{n} W_{k}$ ，那么

V_{n + 1} = \frac{\sum _{k = 1}^{n - 1} W _{k} G _{k} + W _{n} G _{n}}{\sum _{k = 1}^{n} W _{k}} = \frac{\sum _{k = 1}^{n - 1} W _{k} \frac{\sum _{k = 1}^{n - 1} W _{k} G _{k}}{\sum _{k = 1}^{n - 1} W _{k}} + W _{n} G _{n}}{\sum _{k = 1}^{n} W _{k}} = \frac{C _{n - 1} V _{n} + W _{n} G _{n}}{C _{n}} = \frac{( C _{n} - W _{n} ) V _{n} + W _{n} G _{n}}{C _{n}} = V_{n} + \frac{W _{n}}{C _{n}} [G_{n} - V_{n}]

于是便能得到下面的增量执行式：

V_{n + 1} C_{n + 1} = V_{n} + \frac{W _{n}}{C _{n}} [G_{n} - V_{n}] = C_{n} + W_{n + 1}, (C_{0} = 0)

下面是结合增量执行的 Off-policy MC 算法

这个算法的终止条件是 $W = 0 \Rightarrow π (A_{t} ∣ S_{t}) = 0$ ，这意味着行为策略 $b$ 生成了一个目标策略 $π$ 中没有的 action ，这样就没有继续学习下去的意义，所以需要终止此段 episode ，开始下一段 episode 的学习。

5.7 Off-policy Monte Carlo Control

有了前面的准备，便能最终得到估计最优策略的 Off-policy MC 算法：

这个算法里，我们给的 $π$ 是确定性而非 soft 的，但是将 $b$ 设为 soft 的，以确保 action 的 exploration ，并且同时维持 $π$ 的确定性
注意到， $W$ 的更新式理应写作 $W \leftarrow W \frac{π ( A _{t} ∣ S _{t} )}{b ( A _{t} ∣ S _{t} )}$ ，但这里写作 $W \leftarrow W \frac{1}{b ( A _{t} ∣ S _{t} )}$ ，这是因为本例中的目标策略是确定性的，所以每个状态下，采取的行动是确定的，因而 $π (A_{t} ∣ S_{t}) = 1$
终止条件 $A_{t} \neq = π (S_{t})$ 的原理和前面相同，即此时没有了继续学习下去的意义，应当停止当且 episode 并进入下一片段

Others

本书后面几小节仅简要介绍了一些更特殊的估计 $V (s)$ 的方法，但未作进一步论证，此处略去。

📚 ZHANGWP

Explorer