论文:
Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic ActorSoft Actor-Critic Algorithms and ApplicationsSoft Actor-Critic for Discrete Action Settings3个近似函数
Q θ ( s , a ) Q_\theta (s,a) Qθ(s,a) 输入(s,a), 输出Q value利用NN的泛化能力, 能够估计任意(s,a) pair的Q value, 因而能过处理连续的state和action space.更新: min TD error from eq(2)-(3) V ψ ( s ) V_\psi(s) Vψ(s) 不是必要的, 因为V可以用Q表示, 如eq(3)所示, 但多训练V可以提高稳定性.更新: min 两种V定义之间的差距 π ϕ ( a ∣ s ) \pi_\phi (a|s) πϕ(a∣s): 高斯密度函数 输出均值和方差更新: min KL, 靠近 π ∼ exp Q ( s , a ) \pi \sim \exp Q(s,a) π∼expQ(s,a) Tips parameterization trick used in: f ( s , ϵ ) f(s,\epsilon) f(s,ϵ) μ , σ = π ϕ ( s ) \mu, \sigma = \pi_\phi (s) μ,σ=πϕ(s) ϵ ∼ N ( 0 , 1 ) \epsilon \sim N(0,1) ϵ∼N(0,1) a = f ϕ ( ϵ , s ) = μ + ϵ ∗ σ a=f_\phi (\epsilon,s)=\mu+\epsilon*\sigma a=fϕ(ϵ,s)=μ+ϵ∗σdifferentiable expectation in J ϕ ( π ) J_\phi(\pi) Jϕ(π) enforcing action bound 为了使输出的action有界, 网络输出经过 t a n h tanh tanh函数. 但这样做改变了原来的正态分布, 需要矫正.target V: 类似DQN中的target Q2 Q function: mitigate positive bias in the policy improvement, 能极大提高学习速度新的paper中有如下几个改变之处:
不近似V, 利用Q来计算V loss计算公式类似SARSA, 需要计算 a t + 1 a_{t+1} at+1学习entropy temperature α \alpha α 经过推导, objective为eq(18)