📚 ZHANGWP
Search
Search
Search
Dark mode
Light mode
Explorer
diary
❯ diary_index
Blog History
Game Log
保研经验分享
鹏程万里
notes
book-reading
RLAI
强化学习导论(七)- n 步自助法
强化学习导论(三)- 有限马尔可夫决策过程
强化学习导论(九)- On-Policy的近似预测
强化学习导论(二)- 多臂老虎机
强化学习导论(五)- 蒙特卡罗方法
强化学习导论(八)- 规划与学习
强化学习导论(六)- 时序差分学习
强化学习导论(十)- On-Policy的近似控制
强化学习导论(十一)- Off-Policy的近似方法
强化学习导论(十三)- 策略梯度法
强化学习导论(十二)- 资格迹
强化学习导论(四)- 动态规划
paper-reading
[2018-12-26]MCTS Introduction
[2020-07-06]Model-based RL with uncertainty
[2020-07-26]Background and Decision-time Planning
[2022-03-25]RL and Language Models
[2022-10-14]Factored Adaption for Non-stationary RL
[2022-11-18]RL with Causal Reasoning
[2023-05-24]Diffusion Models and RL
[2023-06-30]AdaPlanner & LLM Weights
[2023-10-29]Hallucination in LMM
❯ notes_index
other
❯ other_index
Donate
Friend Link
Statement
share
projects
Markdown 编译转换工具
NKU-EAMIS 工具
NKU-EAMIS_MiniApp
NKU-SMS-RSS
RL Runfast
Steam 市场比价爬虫
❯ share_index
南开数院 - 试题汇总
Folder: share
2 items under this folder.
Mar 14, 2024
南开数院 - 试题汇总
Mar 14, 2024
❯ share_index