强化学习(一)

2022-09-13

阅读：390

强化学习的数学模型--马尔科夫决策过程

马尔科夫性

马尔科夫性，也称为无后效性，是指在时间步 $t+1$ 时，环境的反馈仅取决于上一个时间步 $t$ 的状态 $s_t$ 和动作 $a_t$，与时间步 $t-1$ 及之前的时间步的状态和动作没有关系

用条件概率表示马尔科夫性质：

$$ \boldsymbol{P_r({s_{t+1}\ |\ a_t,\ s_t,\ a_{t-1},\ s_{t-1},\ ...,\ a_0,\ s_0})=P_r({s_{t+1}\ |\ a_t,\ s_t})} $$

马尔科夫决策过程描述强化学习

马尔科夫决策过程$(Markov\ Decision\ Process,\ MDP)$，可以表示为一个五元组

$$ \boldsymbol{MDP=(S,A,P,R,\gamma } ) $$

由这五个元素就组成了马尔科夫决策过程（也可以不要 $\gamma$，是一个四元组）

(1). 状态空间 $S$，是所有可能的状态所组成的集合，假设都为离散状态

$$ \boldsymbol{S}=\left\{ \boldsymbol{s}_1, \boldsymbol{s}_2, ..., \boldsymbol{s}_{\boldsymbol{m}} \right\} $$

(2). 动作空间 $A$，是所有可能的动作所组成的集合$($离散$)$

$$ \boldsymbol{A}=\left\{ \boldsymbol{a}_1, \boldsymbol{a}_2, ..., \boldsymbol{a}_{\boldsymbol{n}} \right\} $$

(3). 状态转移概率函数 $P$，是当前状态 $s$ 经过动作 $a$ 后，到达状态 $s'$ 的概率

$$ \boldsymbol{P:S \times A \times S'\rightarrow[0, 1]} \\ \boldsymbol{P(s'|s,a)=P_r(S=s'|S=s,A=a)} $$

(4). 奖励函数 $R$，$Agent$ 执行一个 $Action$ 后的 $Reward$；二元是不考虑下一个状态 $s'$，三元是会考虑下一个状态 $s'$

关系：二元奖励函数 $R$ 可以看作是三元奖励函数 $r$ 在该状态转移概率函数 $P$ 下的期望 $E$ $($$离散)$

$$ 二元:\boldsymbol{R:S \times A\rightarrow R} \\ \boldsymbol{R=R(s,a)}\\ 三元:\boldsymbol{r:S \times A\times S'\rightarrow r} \\ \boldsymbol{r=r(s,a,s')}\\ \boldsymbol{R(s,a)=E_{s'\sim p(.|s,a)}[r(s,a,s')]=\sum_{s'\in S}P(s'|s,a)\cdot r(s,a,s')}\\ $$

解释：当前状态 $s$ 执行动作 $a$ 后，转移到的下一个状态 $s'$ 是不固定的，是服从一个概率分布的

(5). 折扣因子 $\gamma$，一般情况下，较近的累计奖励是比较远的累计奖励，对当前时刻的影响大的，所以引入折扣因子

$$ \boldsymbol{\gamma\in[0, 1]} $$

策略

(1). 确定性策略$($概率$)$：

若为 $0$，表示在状态 $s$ 的条件下，执行动作 $a$ 的概率为 $0$；若为 $1$，表示在状态 $s$ 的条件下，执行动作 $a$ 的概率为 $1$

还有一种情况，$a$ 是通过一个函数 $\pi(s)$ 算出来的，一般用在连续性空间里

$$ \boldsymbol{\pi }\left( \boldsymbol{a}|\boldsymbol{s} \right) =\begin{cases} 0\\ 1\\ \end{cases}\ \ \ \ or \ \ \ \pi:S\rightarrow A, \ a=\pi(s) $$

(2). 随机性策略$($概率$)$：

表示在状态 $s$ 的条件下，执行动作 $a$ 的概率在 $0\sim1$ 之间

$$ \boldsymbol{\pi(a|s)\in(0, 1)} $$

马尔可夫决策过程

一个状态 $-$ 动作 $-$ 奖励序列 $(MDP\ \ Chain)$

$$ \boldsymbol{S_0,A_0,R_1,S_1,A_1,R_2,...,S_t,A_t,R_{t+1},...,S_{T-1},A_{T-1},R_T,S_T} \\ T:代表终止 $$

参考

https://github.com/QiangLong2017

最后编辑于：2022 年 09 月 28 日 10:15