强化学习&基础1.4 | reward奖励_强化学习 reward 上下限-CSDN博客blog.csdn.net

网站介绍：文章浏览阅读7.4k次，点赞2次，收藏7次。智能体的目标是最大化期望累计奖励我们把在时间t的回报定义为Gt，在t时间的时候智能体会选择动作At来使期望Gt最大化。通常智能体无法完全肯定地预测未来的奖励怎么样，他必须依赖于预测和估算我们可以给公式乘上折扣率，来表示对未来回报的关注度，当gama靠近0表示只关注与眼前的利益，当gamma靠近1表示对未来的回报和当前回报一样地注重。这在连续性任务中是十分重要滴，因为没有停止点，折扣率防止..._强化学习 reward 上下限

链接地址：https://blog.csdn.net/weixin_43236007/article/details/89292596
链接标题：强化学习&基础1.4 | reward奖励_强化学习 reward 上下限-CSDN博客
所属网站：blog.csdn.net
被收藏次数：1807
网站标签：强化学习 reward 上下限

分享到各大网站