强化学习代码实操和讲解(三)_poisson probability-CSDN博客

网站介绍:文章浏览阅读2.8k次,点赞9次,收藏46次。强化学习代码实操和讲解(三)引言杰克租车问题重点代码解析环境设置poisson_probability:泊松概率的计算expected_return:根据给定策略进行策略评估figure_4_2:策略迭代主循环和画图结果与讨论赌徒问题重点代码解析环境设置figure_4_3:价值迭代和绘图结果和讨论总结完整代码杰克租车问题赌徒问题引言本章首先介绍了动态规划这一非常重要的工具,用书上总结性的话来说,通过将贝尔曼方程转化成为近似逼近理想价值函数的递归更新公式,我们就得到了DP算法,实际上,动态规划把原问题分_poisson probability