Noonisy
强化学习(一)
2022-09-13
阅读:373

强化学习的数学模型--马尔科夫决策过程


马尔科夫性

马尔科夫性,也称为无后效性,是指在时间步 $t+1$ 时,环境的反馈仅取决于上一个时间步 $t$ 的状态 $s_t$ 和动作 $a_t$,与时间步 $t-1$ 及之前的时间步的状态和动作没有关系

用条件概率表示马尔科夫性质:
$$ \boldsymbol{P_r({s_{t+1}\ |\ a_t,\ s_t,\ a_{t-1},\ s_{t-1},\ ...,\ a_0,\ s_0})=P_r({s_{t+1}\ |\ a_t,\ s_t})} $$

马尔科夫决策过程描述强化学习

马尔科夫决策过程$(Markov\ Decision\ Process,\ MDP)$,可以表示为一个五元组
$$ \boldsymbol{MDP=(S,A,P,R,\gamma } ) $$
由这五个元素就组成了马尔科夫决策过程(也可以不要 $\gamma$,是一个四元组)

(1). 状态空间 $S$,是所有可能的状态所组成的集合,假设都为离散状态
$$ \boldsymbol{S}=\left\{ \boldsymbol{s}_1, \boldsymbol{s}_2, ..., \boldsymbol{s}_{\boldsymbol{m}} \right\} $$
(2). 动作空间 $A$,是所有可能的动作所组成的集合$($离散$)$
$$ \boldsymbol{A}=\left\{ \boldsymbol{a}_1, \boldsymbol{a}_2, ..., \boldsymbol{a}_{\boldsymbol{n}} \right\} $$
(3). 状态转移概率函数 $P$,是当前状态 $s$ 经过动作 $a$ 后,到达状态 $s'$ 的概率
$$ \boldsymbol{P:S \times A \times S'\rightarrow[0, 1]} \\ \boldsymbol{P(s'|s,a)=P_r(S=s'|S=s,A=a)} $$
(4). 奖励函数 $R$,$Agent$ 执行一个 $Action$ 后的 $Reward$;二元是不考虑下一个状态 $s'$,三元是会考虑下一个状态 $s'$

关系:二元奖励函数 $R$ 可以看作是三元奖励函数 $r$ 在该状态转移概率函数 $P$ 下的期望 $E$ $($$离散)$
$$ 二元:\boldsymbol{R:S \times A\rightarrow R} \\ \boldsymbol{R=R(s,a)}\\ 三元:\boldsymbol{r:S \times A\times S'\rightarrow r} \\ \boldsymbol{r=r(s,a,s')}\\ \boldsymbol{R(s,a)=E_{s'\sim p(.|s,a)}[r(s,a,s')]=\sum_{s'\in S}P(s'|s,a)\cdot r(s,a,s')}\\ $$
解释:当前状态 $s$ 执行动作 $a$ 后,转移到的下一个状态 $s'$ 是不固定的,是服从一个概率分布的

(5). 折扣因子 $\gamma$,一般情况下,较近的累计奖励是比较远的累计奖励,对当前时刻的影响大的,所以引入折扣因子
$$ \boldsymbol{\gamma\in[0, 1]} $$
策略

(1). 确定性策略$($概率$)$:

若为 $0$,表示在状态 $s$ 的条件下,执行动作 $a$ 的概率为 $0$;若为 $1$,表示在状态 $s$ 的条件下,执行动作 $a$ 的概率为 $1$

还有一种情况,$a$ 是通过一个函数 $\pi(s)$ 算出来的,一般用在连续性空间里
$$ \boldsymbol{\pi }\left( \boldsymbol{a}|\boldsymbol{s} \right) =\begin{cases} 0\\ 1\\ \end{cases}\ \ \ \ or \ \ \ \pi:S\rightarrow A, \ a=\pi(s) $$
(2). 随机性策略$($概率$)$:

表示在状态 $s$ 的条件下,执行动作 $a$ 的概率在 $0\sim1$ 之间
$$ \boldsymbol{\pi(a|s)\in(0, 1)} $$

马尔可夫决策过程

一个状态 $-$ 动作 $-$ 奖励序列 $(MDP\ \ Chain)$
$$ \boldsymbol{S_0,A_0,R_1,S_1,A_1,R_2,...,S_t,A_t,R_{t+1},...,S_{T-1},A_{T-1},R_T,S_T} \\ T:代表终止 $$

参考

最后编辑于:2022 年 09 月 28 日 10:15
邮箱格式错误
网址请用http://或https://开头