《强化学习》第四章 动态规划_强化学习动态规划章节目录-CSDN博客

网站介绍:文章浏览阅读1.8k次,点赞3次,收藏27次。动态规划(Dynamic Programming,DP)是一类优化方法,在给定一个用马尔科夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。本章中,我们假设环境是一个有限MDP。也就是说,我们假设状态集合S、动作集合A和收益集合R是有限的,并且整个系统的动态特性由对于任意s∈S、a∈A(s)、r∈R和s′∈S+(S+s \in S、a \in A(s)、r \in R 和s' \in S^+(S^+s∈S、a∈A(s)、r∈R和s′∈S+(S+表示在分幕式任务下S加上一个终止状态)的四_强化学习动态规划章节目录