Noonisy
强化学习(三)
2022-09-15
阅读:254

策略评估

概念

在环境模型已知的前提下,对任意的策略 $\pi$,需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度,这就是策略评估($Policy\ Evalutaion,\ PE$),换句话说,策略评估就是计算策略 $\pi$ 下每个状态的状态值

方程组法

思想:若状态空间离散,且已知策略 $\pi$ 和状态转移概率 $P$,可以设每个状态值为一个未知数,由公式(3-1)可以得到一个线性方程组,称为贝尔曼方程组,求解这个方程组便可以得到每一个状态值

案例:

案例

分析:因为已知状态转移概率 $P$,所以这是一个有模型的问题;公式(3-1)就是上一节讲的状态值函数表示的贝尔曼方程
$$ V_\pi(s)=\sum_{a\in A}\pi(a|s)\sum_{s'\in S}P(s'|s,a)(r+\gamma\cdot V_\pi(s')) \tag{3-1} $$
(1). 状态空间 $S$
$$ S=\left\{S1,S2,S3,S4,S5\right\} $$
(2). 动作空间 $A$
$$ A=\{Facebook,Quit,Sleep,Study,Pub\} $$
(3). 状态转移概率 $P$
$$ P(S1|S2,Facebook)=1 \\ ~\\ P(S3|S2,Study)=1 \\ ... \\ P(S|S4,Pub)= \begin{cases} 0.2,& \text{S=S2}\\ 0.4,& \text{S=S4}\\ 0.4,& \text{S=S5}\\ \end{cases} $$
(4). 奖励函数 $R$
$$ R(S1,Facebook,S1)=-1 \\ ~\\ R(S1,Quit,S2)=0 \\ ... \\ R(S4,Study,S5)=10 \\ $$
(5). 折扣系数 $\gamma$
$$ \gamma=1 $$
(6). 平均策略 $\pi$
$$ \pi(a|s)=0.5 $$
(7). 基于状态值的贝尔曼方程,根据公式(3-1)
$$ V_\pi(S_i)=v_i,\ \ i=1,2,3,4 \\ ~\\ V_\pi(S_5)=v_5=0 \\ ~\\ \Downarrow \\ ~\\ \begin{cases} v_1=0.5(-1+v_1)+0.5(0+v_2) \\ ~\\ v_2=0.5(-1+v_1)+0.5(-2+v_3) \\ ~\\ v_3=0.5(0+0)+0.5(-2+v_4) \\ ~\\ v_4=0.5(10+0)+0.5(1+0.2v_2+0.4v_3+0.4v_4) \\ ~\\ v_5=0 \\ \end{cases} ~\\ \Downarrow 解方程 \\ ~\\ \begin{cases} v_1=-2.3077=V_\pi(S_1) \\ ~\\ v_2=-1.3077=V_\pi(S_2) \\ ~\\ v_3=2.6923=V_\pi(S_3) \\ ~\\ v_4=7.3846=V_\pi(S_4) \\ ~\\ v_5=0=V_\pi(S_5) \end{cases} $$

迭代法

(1). 思想
$$ V_\pi(s)\leftarrow \sum_{a\in A}\pi(a|s)\left(r+\gamma\cdot \sum_{s'\in S}P(s'|s,a)\cdot V_\pi(s') \right) \tag{3-2} $$
(2). 迭代式策略评估算法(3-3)
  1. 输入:环境模型 $MDP(S,A,P,R,\gamma)$ ,待评估的策略 $\pi$,容忍系数 $\epsilon$(一个很小的正数)
  2. 初始化:状态值 $V_\pi(s)=0$
  3. 过程:
  4. $\qquad$循环:
  5. $\qquad \qquad$$Delta leftarrow 0$
  6. $\qquad \qquad $循环:对每一个 $s \in S$
  7. $\qquad \qquad \qquad $ $\boldsymbol{V\leftarrow V_\pi(s)}$,记录上一个状态值函数
  8. $\qquad \qquad \qquad $根据公式(3-2),更新本次迭代的状态值 $V_\pi(s)$
  9. $\qquad \qquad \qquad $更新绝对误差: $\boldsymbol{\Delta\leftarrow max(\Delta,|V-V_\pi(s)|)}$
  10. $\qquad \qquad $如果 $\Delta < \epsilon$ 则结束循环,否则继续下一轮循环
  11. 输出:状态评估值 $V_\pi(s)$

参考

最后编辑于:2022 年 09 月 26 日 09:21
邮箱格式错误
网址请用http://或https://开头