同策略时序差分强化学习
目标策略和行为策略相同
$Sarsa$ 算法(12-1)
- 输入:环境模型 $MDP(S,A,R,\gamma)$,学习率 $\alpha =0.1$,贪婪系数 $\epsilon=0.1$,最大迭代局数 $num\_episodes=1000$
- 初始化:随机初始化动作值 $Q(s,a)$,根据动作值计算贪婪策略 $\pi(s)$
- 过程:
- $\qquad$ 循环:$episode=1\sim num\_episodes$
- $\qquad \qquad$ 初始状态:$s=s_0$
- $\qquad \qquad$ 选择动作:根据当前 $\epsilon$ 贪婪策略生成动作,$a=\pi_{\epsilon}(s)$
- $\qquad \qquad$ 循环:直到到达终止状态,即 $END=True$
- $\qquad \qquad \qquad$ 执行动作:$s,a,R,s',END$
- $\qquad \qquad \qquad$ 选择动作:根据当前 $\epsilon$ 贪婪策略生成动作,即 $a'=\pi_{\epsilon}(s')$
- $\qquad \qquad \qquad$ 策略评估: $Q(s,a)\leftarrow Q(s,a)+\alpha \left(R+\gamma Q(s',a')-Q(s,a)\right)$
- $\qquad \qquad \qquad$ 策略改进:$\pi(s)=\arg \max _{a \in \mathbb{A}} Q(s, a)$
- $\qquad \qquad \qquad$ 状态更新:$s \leftarrow s',a\leftarrow a'$
- 输出:最优策略 $\pi^*(s)$,最优动作值 $Q^*(s,a)$
说明:(1)终止条件,强制终止条件局数到达某值后结束
(2)同策略算法,认为目标策略 $\pi$ 和行为策略 $\pi_{\epsilon}$ 是同一个算法
参考
最后编辑于:2022 年 09 月 26 日 21:35