强化学习导论 | 第八章规划和学习_dyna-q 算法-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读1.4k次，点赞3次，收藏10次。前面几章已经讲了model-based (如：动态规划)和model-free (蒙特卡洛、时序差分)方法。这两种方法的区别在于计算价值函数的时候是否已知模型（这里指状态转移概率）。虽然这两种强化学习方法不同，但也有相同的地方，比如：两种方法的核心都在于计算价值函数，还都是根据未来的奖励来估算当前状态价值。既然有相同之处，这两种强化学习方法能否统一起来呢？这就是本章的内容，其中，model-ba..._dyna-q 算法

链接地址：https://blog.csdn.net/ting0922/article/details/105296083
链接标题：强化学习导论 | 第八章规划和学习_dyna-q 算法-CSDN博客
所属网站：blog.csdn.net
被收藏次数：2411
网站标签：dyna-q 算法

分享到各大网站