Noonisy
强化学习(四)
策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢?设 $\pi$ 和 $\pi'$ 为两个策略,若对任意 $s\in S$ 都有 $V_...
强化学习(三)
策略评估概念在环境模型已知的前提下,对任意的策略 $\pi$,需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度,这就是策略评估($Policy\ Evalutaion,\ PE$),换...
强化学习(二)
值函数与贝尔曼方程
强化学习(一)
强化学习的数学模型--马尔科夫决策过程
Typecho插件
Typecho插件我认为不错的一些 Typecho 插件,没有什么花里胡哨的