2022年9月 - Noonisy

强化学习(九)

蒙特卡罗强化学习

2022-09-19

阅读全文

强化学习(八)

蒙特卡罗策略评估

2022-09-19

阅读全文

强化学习(七)

蒙特卡罗法简介

2022-09-18

阅读全文

强化学习(六)

值迭代与策略迭代

2022-09-17

阅读全文

强化学习(五)

最优值函数和最优策略最优值函数(1). 最优状态值函数，所有策略下产生的众多状态值函数中的最大者$$ V^*(s)=\max_{\pi}\ \ V_\pi(s), \ \ {\forall}s\...

2022-09-17

阅读全文

强化学习(四)

策略改进策略改进就是利用对当前策略评估得到的状态值函数来计算出一个新的更优的策略那么如果来评估策略的优劣呢？设 $\pi$ 和 $\pi'$ 为两个策略，若对任意 $s\in S$ 都有 $V_...

2022-09-16

阅读全文

强化学习(三)

策略评估概念在环境模型已知的前提下，对任意的策略 $\pi$，需要估算该策略下的累计折扣奖励的期望以衡量该策略的优劣程度，这就是策略评估（$Policy\ Evalutaion,\ PE$），换...

2022-09-15

阅读全文

强化学习(二)

值函数与贝尔曼方程

2022-09-13

阅读全文

强化学习(一)

强化学习的数学模型--马尔科夫决策过程

2022-09-13

阅读全文

Gogs搭建

2022-09-05

阅读全文

2/3