Noonisy

最优值函数和最优策略最优值函数(1). 最优状态值函数，所有策略下产生的众多状态值函数中的最大者$$ V^*(s)=\max_{\pi}\ \ V_\pi(s), \ \ {\forall}s\...

2022-09-17

阅读全文

策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢？设 $\pi$ 和 $\pi'$ 为两个策略，若对任意 $s\in S$ 都有 $V_...

2022-09-16

阅读全文

策略评估概念在环境模型已知的前提下，对任意的策略 $\pi$，需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度，这就是策略评估（$Policy\ Evalutaion,\ PE$），换...

2022-09-15

阅读全文

值函数与贝尔曼方程

2022-09-13

阅读全文

强化学习的数学模型--马尔科夫决策过程

2022-09-13

阅读全文

2022-09-05

阅读全文

ZeroTier使用

2022-09-04

阅读全文

请输入密码访问

2022-09-02

阅读全文

屏蔽Censys的UA

2022-09-02

阅读全文

Typecho插件我认为不错的一些 Typecho 插件，没有什么花里胡哨的

2022-09-01

阅读全文