强化学习的数学模型--马尔科夫决策过程
马尔科夫性
马尔科夫性,也称为无后效性,是指在时间步 $t+1$ 时,环境的反馈仅取决于上一个时间步 $t$ 的状态 $s_t$ 和动作 $a_t$,与时间步 $t-1$ 及之前的时间步的状态和动作没有关系
用条件概率表示马尔科夫性质:
$$
\boldsymbol{P_r({s_{t+1}\ |\ a_t,\ s_t,\ a_{t-1},\ s_{t-1},\ ...,\ a_0,\ s_0})=P_r({s_{t+1}\ |\ a_t,\ s_t})}
$$
马尔科夫决策过程描述强化学习
马尔科夫决策过程$(Markov\ Decision\ Process,\ MDP)$,可以表示为一个五元组
$$
\boldsymbol{MDP=(S,A,P,R,\gamma } )
$$
由这五个元素就组成了马尔科夫决策过程(也可以不要 $\gamma$,是一个四元组)
(1). 状态空间 $S$,是所有可能的状态所组成的集合,假设都为离散状态
$$
\boldsymbol{S}=\left\{ \boldsymbol{s}_1, \boldsymbol{s}_2, ..., \boldsymbol{s}_{\boldsymbol{m}} \right\}
$$
(2). 动作空间 $A$,是所有可能的动作所组成的集合$($离散$)$
$$
\boldsymbol{A}=\left\{ \boldsymbol{a}_1, \boldsymbol{a}_2, ..., \boldsymbol{a}_{\boldsymbol{n}} \right\}
$$
(3). 状态转移概率函数 $P$,是当前状态 $s$ 经过动作 $a$ 后,到达状态 $s'$ 的概率
$$
\boldsymbol{P:S \times A \times S'\rightarrow[0, 1]} \\
\boldsymbol{P(s'|s,a)=P_r(S=s'|S=s,A=a)}
$$
(4). 奖励函数 $R$,$Agent$ 执行一个 $Action$ 后的 $Reward$;二元是不考虑下一个状态 $s'$,三元是会考虑下一个状态 $s'$
关系:二元奖励函数 $R$ 可以看作是三元奖励函数 $r$ 在该状态转移概率函数 $P$ 下的期望 $E$ $($$离散)$
$$
二元:\boldsymbol{R:S \times A\rightarrow R} \\
\boldsymbol{R=R(s,a)}\\
三元:\boldsymbol{r:S \times A\times S'\rightarrow r} \\
\boldsymbol{r=r(s,a,s')}\\
\boldsymbol{R(s,a)=E_{s'\sim p(.|s,a)}[r(s,a,s')]=\sum_{s'\in S}P(s'|s,a)\cdot r(s,a,s')}\\
$$
解释:当前状态 $s$ 执行动作 $a$ 后,转移到的下一个状态 $s'$ 是不固定的,是服从一个概率分布的
(5). 折扣因子 $\gamma$,一般情况下,较近的累计奖励是比较远的累计奖励,对当前时刻的影响大的,所以引入折扣因子
$$
\boldsymbol{\gamma\in[0, 1]}
$$
策略
(1). 确定性策略$($概率$)$:
若为 $0$,表示在状态 $s$ 的条件下,执行动作 $a$ 的概率为 $0$;若为 $1$,表示在状态 $s$ 的条件下,执行动作 $a$ 的概率为 $1$
还有一种情况,$a$ 是通过一个函数 $\pi(s)$ 算出来的,一般用在连续性空间里
$$
\boldsymbol{\pi }\left( \boldsymbol{a}|\boldsymbol{s} \right) =\begin{cases}
0\\
1\\
\end{cases}\ \ \ \ or \ \ \
\pi:S\rightarrow A, \ a=\pi(s)
$$
(2). 随机性策略$($概率$)$:
表示在状态 $s$ 的条件下,执行动作 $a$ 的概率在 $0\sim1$ 之间
$$
\boldsymbol{\pi(a|s)\in(0, 1)}
$$
马尔可夫决策过程
一个状态 $-$ 动作 $-$ 奖励序列 $(MDP\ \ Chain)$
$$
\boldsymbol{S_0,A_0,R_1,S_1,A_1,R_2,...,S_t,A_t,R_{t+1},...,S_{T-1},A_{T-1},R_T,S_T} \\
T:代表终止
$$
参考