Noonisy
正在努力加载中QAQ
强化学习(四)
策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢?设 $\pi$ 和 $\pi'$ 为两个策略,若对任意 $s\in S$ 都有 $V_...
2022-09-16
阅读全文
强化学习(三)
策略评估概念在环境模型已知的前提下,对任意的策略 $\pi$,需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度,这就是策略评估($Policy\ Evalutaion,\ PE$),换...
2022-09-15
阅读全文
强化学习(二)
值函数与贝尔曼方程
2022-09-13
阅读全文
强化学习(一)
强化学习的数学模型--马尔科夫决策过程
2022-09-13
阅读全文
Gogs搭建
Gogs搭建
2022-09-05
阅读全文
ZeroTier
ZeroTier使用
2022-09-04
阅读全文
此内容被密码保护
请输入密码访问
2022-09-02
阅读全文
屏蔽Censys
屏蔽Censys的UA
2022-09-02
阅读全文
Typecho插件
Typecho插件我认为不错的一些 Typecho 插件,没有什么花里胡哨的
2022-09-01
阅读全文
关于HTTPS和CDN的某某事
关于HTTPS和CDN的某某事
2022-08-31
阅读全文
上一页
12/14
下一页
Noonisy
首页
归档
2025年5月
1
2025年3月
1
2025年2月
1
2025年1月
2
2024年11月
1
2024年10月
3
2024年7月
1
2024年6月
1
2024年5月
3
2024年4月
1
2024年2月
1
2024年1月
5
2023年12月
4
2023年11月
2
2023年10月
1
2023年9月
1
2023年8月
1
2023年6月
13
2023年5月
5
2023年4月
5
2023年3月
6
2023年2月
1
2023年1月
1
2022年12月
7
2022年11月
9
2022年10月
18
2022年9月
24
2022年8月
13
访问量
111351
运行天数
1129
标签
💭
日记
关于