网友收藏《强化学习》第四章 动态规划_强化学习动态规划章节目录-CSDN博客文章浏览阅读1.8k次,点赞3次,收藏27次。动态规划(Dynamic Programming,DP)是一类优化方法,在给定一个用马尔科夫决策过程(MDP)描述的完备环境模型的情况下,其可以计算最优的策略。本章中,我们假设环境是一个有限MDP。也就...... 2024-01-25 00:54 评论 0 阅读 阅读全文