网站介绍:1| reward. shaping如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛2、gae:广义优势估计absorb state:terminal stateγ-just条件:尚未理解GAE(Generalized Advantage Estimation)GAE的作用GAE的意..._gae与奖励塑造
- 链接地址:https://blog.csdn.net/weixin_30872789/article/details/101883248
- 链接标题:Gae&reward shaping-CSDN博客
- 所属网站:blog.csdn.net
- 被收藏次数:917
- 网站标签:gae与奖励塑造