强化学习(十二)

2022-09-22

阅读：371

同策略时序差分强化学习

目标策略和行为策略相同

输入：环境模型 $MDP(S,A,R,\gamma)$，学习率 $\alpha =0.1$，贪婪系数 $\epsilon=0.1$，最大迭代局数 $num\_episodes=1000$
初始化：随机初始化动作值 $Q(s,a)$，根据动作值计算贪婪策略 $\pi(s)$
过程：
$\qquad$ 循环：$episode=1\sim num\_episodes$
$\qquad \qquad$ 初始状态：$s=s_0$
$\qquad \qquad$ 选择动作：根据当前 $\epsilon$ 贪婪策略生成动作，$a=\pi_{\epsilon}(s)$
$\qquad \qquad$ 循环：直到到达终止状态，即 $END=True$
$\qquad \qquad \qquad$ 执行动作：$s,a,R,s',END$
$\qquad \qquad \qquad$ 选择动作：根据当前 $\epsilon$ 贪婪策略生成动作，即 $a'=\pi_{\epsilon}(s')$
$\qquad \qquad \qquad$ 策略评估： $Q(s,a)\leftarrow Q(s,a)+\alpha \left(R+\gamma Q(s',a')-Q(s,a)\right)$
$\qquad \qquad \qquad$ 策略改进：$\pi(s)=\arg \max _{a \in \mathbb{A}} Q(s, a)$
$\qquad \qquad \qquad$ 状态更新：$s \leftarrow s',a\leftarrow a'$
输出：最优策略 $\pi^*(s)$，最优动作值 $Q^*(s,a)$

说明：

（1）终止条件，强制终止条件局数到达某值后结束

（2）同策略算法，认为目标策略 $\pi$ 和行为策略 $\pi_{\epsilon}$ 是同一个算法

最后编辑于：2022 年 09 月 26 日 21:35