《强化学习》第四章动态规划_强化学习动态规划章节目录-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读1.8k次，点赞3次，收藏27次。动态规划（Dynamic Programming，DP）是一类优化方法，在给定一个用马尔科夫决策过程(MDP)描述的完备环境模型的情况下，其可以计算最优的策略。本章中，我们假设环境是一个有限MDP。也就是说，我们假设状态集合S、动作集合A和收益集合R是有限的，并且整个系统的动态特性由对于任意s∈S、a∈A(s)、r∈R和s′∈S+(S+s \in S、a \in A(s)、r \in R 和s' \in S^+(S^+s∈S、a∈A(s)、r∈R和s′∈S+(S+表示在分幕式任务下S加上一个终止状态）的四_强化学习动态规划章节目录

链接地址：https://blog.csdn.net/midnight_DJ/article/details/121598074
链接标题：《强化学习》第四章动态规划_强化学习动态规划章节目录-CSDN博客
所属网站：blog.csdn.net
被收藏次数：801
网站标签：强化学习动态规划章节目录

分享到各大网站