Noonisy
强化学习(五)
最优值函数和最优策略最优值函数(1). 最优状态值函数,所有策略下产生的众多状态值函数中的最大者$$ V^*(s)=\max_{\pi}\ \ V_\pi(s), \ \ {\forall}s\...
强化学习(四)
策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢?设 $\pi$ 和 $\pi'$ 为两个策略,若对任意 $s\in S$ 都有 $V_...
强化学习(三)
策略评估概念在环境模型已知的前提下,对任意的策略 $\pi$,需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度,这就是策略评估($Policy\ Evalutaion,\ PE$),换...
强化学习(二)
值函数与贝尔曼方程
强化学习(一)
强化学习的数学模型--马尔科夫决策过程