GAE 算法_gae算法-CSDN博客

网站介绍:文章浏览阅读2.6k次。欢迎来我的博客查看原文章! https://yunist.cn/ML/RL/primer/GAE/准备众所周知, 策略梯度有多种写法, 总的来说, 在保持策略梯度不变的情况下, 策略梯度可以写作g=E[∑t=0∞Ψt∇θlog⁡π0(at∣st)](1)g=\mathbb{E}\left[\sum_{t=0}^{\infty}\Psi_t\nabla_\theta \log\pi_0(a_t\mid s_t)\right]\tag{1}g=E[t=0∑∞​Ψt​∇θ​logπ0​(at​∣st​)_gae算法