强化学习读书笔记 - 11 - off-policy的近似方法
2024-08-27 17:44:56
强化学习读书笔记 - 11 - off-policy的近似方法
学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
参照
- Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016
- 强化学习读书笔记 - 00 - 术语和数学符号
- 强化学习读书笔记 - 01 - 强化学习的问题
- 强化学习读书笔记 - 02 - 多臂老O虎O机问题
- 强化学习读书笔记 - 03 - 有限马尔科夫决策过程
- 强化学习读书笔记 - 04 - 动态规划
- 强化学习读书笔记 - 05 - 蒙特卡洛方法(Monte Carlo Methods)
- 强化学习读书笔记 - 06~07 - 时序差分学习(Temporal-Difference Learning)
- 强化学习读书笔记 - 08 - 规划式方法和学习式方法
- 强化学习读书笔记 - 09 - on-policy预测的近似方法
- 强化学习读书笔记 - 10 - on-policy控制的近似方法
需要了解强化学习的数学符号,先看看这里:
off-policy的近似方法
尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。
主要原因是:行为策略的分布和目标策略的分布不一致。
off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:
- 使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
- 开发一个真正的梯度递减方法,这个方法不依赖于任何分布。
原书这章还远远没有写完!
这章先停在这里了。
最新文章
- Debain下解决sublime无法输入中文
- matlab里的svmtrain的输出model里,各参数的含义
- iniutils for Golang
- UITabBarController使用总结
- java多线程学习
- discuz门户首页-header文件模板语法详解和注释
- SQL获取变量类型以及变量最大长度
- Web前端开发:SQL Jsp小项目(一)
- DICOM医学图像处理:DIMSE消息发送与接收“大同小异”之DCMTK fo-dicom mDCM
- Minimum Depth of Binary Tree ——LeetCode
- Hexo搭建静态个人博客
- javah编译class文件找不到android.app.Activity的类文件
- (转)MySql数据库索引原理(总结性)
- freemarker之list遍历(八)
- 2018-2019-2 网络对抗技术 20162329 Exp4 恶意代码分析
- vuex状态管理
- 【转】具透 | 你可能不知道,iOS 10 有一个中国「特供」的联网权限功能
- react使用setstate注意的两点
- Ex 2_16 给定一个无穷数组..._第二次作业
- Caused by: java.lang.ClassNotFoundException: Didn't find class ";io.grpc.helloworldexample.HelloworldActivity"; on path: DexPathList
热门文章
- PHP面试系列之Linux(一) ----- Linux基础
- cloudstack 用admin 账号创建虚拟机只是提示insufficient resource
- mac系统 IDEA+JFinal+Tomcat+Maven搭建
- Linux 内核版本号查看
- stateless 无状态组件
- Java中的集合框架-Collections和Arrays
- MySQL初体验--安装MySQL
- GoogleTest初探(2)
- 在TextBrowser显示中,如何让最新的数据永远出现在第一行或者是在窗口的最后显示信息
- 怎样获取最新版的javascript文件,解决被浏览器缓存的问题