Noonisy
强化学习(十二)
2022-09-22
阅读:332

同策略时序差分强化学习


目标策略和行为策略相同

$Sarsa$ 算法(12-1)

  1. 输入:环境模型 $MDP(S,A,R,\gamma)$,学习率 $\alpha =0.1$,贪婪系数 $\epsilon=0.1$,最大迭代局数 $num\_episodes=1000$
  2. 初始化:随机初始化动作值 $Q(s,a)$,根据动作值计算贪婪策略 $\pi(s)$
  3. 过程:
  4. $\qquad$ 循环:$episode=1\sim num\_episodes$
  5. $\qquad \qquad$ 初始状态:$s=s_0$
  6. $\qquad \qquad$ 选择动作:根据当前 $\epsilon$ 贪婪策略生成动作,$a=\pi_{\epsilon}(s)$
  7. $\qquad \qquad$ 循环:直到到达终止状态,即 $END=True$
  8. $\qquad \qquad \qquad$ 执行动作:$s,a,R,s',END$
  9. $\qquad \qquad \qquad$ 选择动作:根据当前 $\epsilon$ 贪婪策略生成动作,即 $a'=\pi_{\epsilon}(s')$
  10. $\qquad \qquad \qquad$ 策略评估: $Q(s,a)\leftarrow Q(s,a)+\alpha \left(R+\gamma Q(s',a')-Q(s,a)\right)$
  11. $\qquad \qquad \qquad$ 策略改进:$\pi(s)=\arg \max _{a \in \mathbb{A}} Q(s, a)$
  12. $\qquad \qquad \qquad$ 状态更新:$s \leftarrow s',a\leftarrow a'$
  13. 输出:最优策略 $\pi^*(s)$,最优动作值 $Q^*(s,a)$
说明:

(1)终止条件,强制终止条件局数到达某值后结束

(2)同策略算法,认为目标策略 $\pi$ 和行为策略 $\pi_{\epsilon}$ 是同一个算法

参考

最后编辑于:2022 年 09 月 26 日 21:35
邮箱格式错误
网址请用http://或https://开头