PPO、GAE笔记_ppo gae-CSDN博客

网站介绍:文章浏览阅读9.8k次,点赞16次,收藏58次。一、 重要性采样TRPO和PPO主要思想的数学基础是重要性采样重要性采样:$x_i $ 是从p(x)p(x)p(x)分布中采样得到的, 但是p(x)p(x)p(x)的值往往无法直接获得,需要通过其他分布q(x)q(x)q(x)进行间接采样获得。Ex∼p[f(x)]=∫f(x)p(x)dx=∫f(x)p(x)q(x)q(x)dx=Ex∼q[f(x)p(x)q(x)]\begin{alig..._ppo gae