强化学习导论 | 第八章 规划和学习_dyna-q 算法-CSDN博客

网站介绍:文章浏览阅读1.4k次,点赞3次,收藏10次。前面几章已经讲了model-based (如:动态规划)和model-free (蒙特卡洛、时序差分)方法。这两种方法的区别在于计算价值函数的时候是否已知模型(这里指状态转移概率)。虽然这两种强化学习方法不同,但也有相同的地方,比如:两种方法的核心都在于计算价值函数,还都是根据未来的奖励来估算当前状态价值。既然有相同之处,这两种强化学习方法能否统一起来呢?这就是本章的内容,其中,model-ba..._dyna-q 算法