RL策略梯度方法之(十): Trust region policy optimization (TRPO)

科技2022-07-14 158

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。

文章目录

原理解析整体概述算法推理过程算法实现总体流程代码实现

$\color{red}TRPO$ ：[ paper | code ]

原理解析

整体概述

为了提高训练的稳定性，我们应该避免在一步中进行大幅度的策略参数更新。Trust region policy optimization (TRPO) 通过在每次迭代时对策略更新的大小施加KL散度约束来实现这一思想。

考虑这样一个情况：用来收集轨迹的策略 $\beta$ 和用于优化更新的策略 $\pi$ 是不同的。在off-policy 模型中的目标函数目标函数度量了状态访问分布和动作的总体优势，而训练数据分布和真实的策略状态分布之间的不匹配通过重要采样估计器进行补偿。

$\begin{aligned} J(\theta) &= \sum_{s \in \mathcal{S}} \rho^{\pi_{\theta_\text{old}}} \sum_{a \in \mathcal{A}} \big( \pi_\theta(a \vert s) \hat{A}_{\theta_\text{old}}(s, a) \big) & \\ &= \sum_{s \in \mathcal{S}} \rho^{\pi_{\theta_\text{old}}} \sum_{a \in \mathcal{A}} \big( \beta(a \vert s) \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big) & \scriptstyle{\text{; 重要性采样}} \\ &= \mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}, a \sim \beta} \big[ \frac{\pi_\theta(a \vert s)}{\beta(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big] & \end{aligned}$

\theta_{old}

已知，是更新前的策略参数；

\rho^{\pi_{\theta_\text{old}}}

定义方式与上述相同；

\beta(a \vert s)

是收集轨迹的行为策略；注意：在此我们是用了

\hat{A}(.)

而不是

{A}(.)

，因为真实回报往往不可知。

在训练策略时，理论上收集数据的策略和我们想要优化的策略是一样的。然而，当rollout workers和优化器异步并行运行时，行为策略可能会过时。TRPO 考虑了这个轻微的差异，它将行为策略记做： $\pi_{\theta_\text{old}}(a \vert s)$ ，因此目标函数变为：

$J(\theta) = \mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}, a \sim \pi_{\theta_\text{old}}} \big[ \frac{\pi_\theta(a \vert s)}{\pi_{\theta_\text{old}}(a \vert s)} \hat{A}_{\theta_\text{old}}(s, a) \big]$

TRPO 目的是最大化目标函数 $J(\theta)$ ，满足置信域约束：即：使得新老策略的距离的KL散度足够小，小于等于参数 $δ$ ：

$\mathbb{E}_{s \sim \rho^{\pi_{\theta_\text{old}}}} [D_\text{KL}(\pi_{\theta_\text{old}}(.\vert s) \| \pi_\theta(.\vert s)] \leq \delta$

这样的话，当这一硬约束得到满足时，新旧策略就不会有太大的分歧。尽管如此，TRPO仍然可以保证策略迭代的单调改进。

简而言之，可以用下面这个式子表示TRPO的思想：

算法推理过程

详见我的另外一篇博客：第三篇直接策略搜索——基于置信域策略优化的强化学习方法

或者见另一篇，写得更规范：强化学习进阶第七讲 TRPO

算法实现

总体流程

略

代码实现

略

Processed: 0.015, SQL: 8