RL策略梯度方法之(十七): Stein Variational Policy Gradient (SVPG)

科技2022-07-14 188

本专栏按照 https://lilianweng.github.io/lil-log/2018/04/08/policy-gradient-algorithms.html 顺序进行总结。

文章目录

原理解析算法实现总体流程代码实现

斯坦变分策略梯度

$\color{red}SVPG$ ：[ paper：Stein Variational Policy Gradient | code ]

原理解析

这是一种应用Stein变分梯度下降法更新策略参数的算法。

在最大熵策略优化设置中， $\theta$ 被认为是一个随机变量，服从于： $\theta \sim q(\theta)$ ，模型期望学到分布 $q(\theta)$ ；假设我们知道一个先验知识，即 $q$ 看起来像 $q_0$ ，我们想要引导学习过程使得 $\theta$ 这套参数的分布接近于 $q_0$ ，即优化以下目标函数 $\hat{J}(\theta) = \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0)$

其中，当 $\theta \sim q(\theta)$ 时， $\mathbb{E}_{\theta \sim q} [R(\theta)]$ 是期望回报； $D_{KL}$ 是 KL 散度。

如果我们没有任何先验信息，我们可以将 $q_0$ 设为均匀分布，将 $q_0(\theta)$ 设为常数。那么上述目标函数即为 SAC，其中熵这一个项鼓励探探索： $\begin{aligned} \hat{J}(\theta) &= \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0) \\ &= \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha \mathbb{E}_{\theta \sim q} [\log q(\theta) - \log q_0(\theta)] \\ &= \mathbb{E}_{\theta \sim q} [J(\theta)] + \alpha H(q(\theta)) \end{aligned}$ 把 $\hat{J}(\theta) = \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0)$ 关于 $q$ 求导： $\begin{aligned} \nabla_q \hat{J}(\theta) &= \nabla_q \big( \mathbb{E}_{\theta \sim q} [J(\theta)] - \alpha D_\text{KL}(q\|q_0) \big) \\ &= \nabla_q \int_\theta \big( q(\theta) J(\theta) - \alpha q(\theta)\log q(\theta) + \alpha q(\theta) \log q_0(\theta) \big) \\ &= \int_\theta \big( J(\theta) - \alpha \log q(\theta) -\alpha + \alpha \log q_0(\theta) \big) \\ &= 0 \end{aligned}$

最优分布是： $\log q^{*}(\theta) = \frac{1}{\alpha} J(\theta) + \log q_0(\theta) - 1 \text{ thus } \underbrace{ q^{*}(\theta) }_\textrm{"posterior"} \propto \underbrace{\exp ( J(\theta) / \alpha )}_\textrm{"likelihood"} \underbrace{q_0(\theta)}_\textrm{prior}$

温度 $α$ 决定开发和探索之间的权衡。当 $\alpha \rightarrow 0$ 时， $\theta$ 仅根据期望回报 $J(\theta)$ 进行更新；当 $\alpha \rightarrow \infty$ 时， $\theta$ 始终遵循先验信念。

当利用SVGD方法估计目标的后验分布 $q(\theta)$ 的时候，它依赖于一组： $\{\theta_i\}_{i=1}^n$ ，(independently trained policy agents)，每一个是这么更新： $\theta_i \gets \theta_i + \epsilon \phi^{*}(\theta_i) \text{ where } \phi^{*} = \max_{\phi \in \mathcal{H}} \{ - \nabla_\epsilon D_\text{KL} (q'_{[\theta + \epsilon \phi(\theta)]} \| q) \text{ s.t. } \|\phi\|_{\mathcal{H}} \leq 1\}$ 其中：

\epsilon

是学习率

\phi^{*}

是 θ型值向量的 RKHS

\mathcal{H}

的单位球；极大地降低了粒子与目标分布之间的KL散度。

比较不同的基于梯度的更新方法:

算法实现

总体流程

代码实现

Processed: 0.056, SQL: 9