Noonisy
正在努力加载中QAQ
强化学习(九)
蒙特卡罗强化学习
2022-09-19
阅读全文
强化学习(八)
蒙特卡罗策略评估
2022-09-19
阅读全文
强化学习(七)
蒙特卡罗法简介
2022-09-18
阅读全文
强化学习(六)
值迭代与策略迭代
2022-09-17
阅读全文
强化学习(五)
最优值函数和最优策略最优值函数(1). 最优状态值函数,所有策略下产生的众多状态值函数中的最大者$$ V^*(s)=\max_{\pi}\ \ V_\pi(s), \ \ {\forall}s\...
2022-09-17
阅读全文
强化学习(四)
策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢?设 $\pi$ 和 $\pi'$ 为两个策略,若对任意 $s\in S$ 都有 $V_...
2022-09-16
阅读全文
强化学习(三)
策略评估概念在环境模型已知的前提下,对任意的策略 $\pi$,需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度,这就是策略评估($Policy\ Evalutaion,\ PE$),换...
2022-09-15
阅读全文
强化学习(二)
值函数与贝尔曼方程
2022-09-13
阅读全文
强化学习(一)
强化学习的数学模型--马尔科夫决策过程
2022-09-13
阅读全文
Gogs搭建
Gogs搭建
2022-09-05
阅读全文
上一页
2/3
下一页
Noonisy
首页
归档
2025年1月
2
2024年11月
1
2024年10月
3
2024年7月
1
2024年6月
2
2024年5月
3
2024年4月
1
2024年2月
1
2024年1月
5
2023年12月
4
2023年11月
2
2023年10月
1
2023年9月
1
2023年8月
1
2023年6月
13
2023年5月
5
2023年4月
5
2023年3月
6
2023年2月
1
2023年1月
1
2022年12月
7
2022年11月
9
2022年10月
18
2022年9月
24
2022年8月
13
访问量
71764
运行天数
992
标签
💭
日记
关于