强化学习第7章——基于策略的强化学习-CSDN博客

网站介绍:文章浏览阅读2.9k次。七、基于策略的强化学习近似价值函数:是在某一特定的策略下采取最大行为价值的动作,在使用贪心寻找最优价值时同时得到最优策略只能解决状态空间连续问题,不能解决行为空间连续的问题(行为空间是离散的)而且采用价值函数确定动作在每个状态采取的行为是确定的,当由于个体在观测环境时的局限性,可能会导致类似的环境应该采用不同的动作(这种情况下的最优策略是随机策略,每次采取的行为可能不一样),而近似价值函数确定性的动作确定就会有缺陷。(如石头剪刀布游戏)所以在基于策略的RL中采用,策略函数:πθ(s,a)=P[a∣_基于策略的强化学习