算法学习（二十）——GAE_gae算法-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读3.9k次，点赞3次，收藏24次。全称是generalized advantage estimator，几乎所有最先进的policy gradient算法实现里面都使用了该技术，适合高维状态，一般都是PPO+GAE。该算法主要改进在于对A的估计。优势函数可以写成如下：一步的优势函数进一步展开为：其中V 的值都是估计的，因此A的估计存在偏差。优势函数的2步估计及无穷步估计分别为：可以看到，随着步数的增加，V的比重逐渐减少，所以不准确的影响也在逐渐减少。GAE的方法是改进对优势函数的估计，将偏差控制..._gae算法

链接地址：https://blog.csdn.net/weixin_42769131/article/details/120275831
链接标题：算法学习（二十）——GAE_gae算法-CSDN博客
所属网站：blog.csdn.net
被收藏次数：9692
网站标签：gae算法

分享到各大网站