Gae&reward shaping-CSDN博客

网站介绍:1| reward. shaping如果对vs有大致的认知,把势能potential-based定义为估计的最优价值函数,能加快价值函数收敛2、gae:广义优势估计absorb state:terminal stateγ-just条件:尚未理解GAE(Generalized Advantage Estimation)GAE的作用GAE的意..._gae与奖励塑造