强化学习读书笔记 - 11 - off-policy的近似方法

学习笔记:
Reinforcement Learning: An Introduction, Richard S. Sutton and Andrew G. Barto c 2014, 2015, 2016

参照

需要了解强化学习的数学符号,先看看这里:

off-policy的近似方法

尽管可以使用第6,7章的方法,修改成为off-policy的近似方法,但是效果不好。
主要原因是:行为策略的分布和目标策略的分布不一致。

off-policy的近似方法的研究现在处于领域的前沿。主要有两个方向:

  • 使用重要样本的方法,扭曲样本的分布成为目标策略的分布。这样就可以使用半梯度递减方法收敛。
  • 开发一个真正的梯度递减方法,这个方法不依赖于任何分布。

原书这章还远远没有写完!
这章先停在这里了。

最新文章

  1. Debain下解决sublime无法输入中文
  2. matlab里的svmtrain的输出model里,各参数的含义
  3. iniutils for Golang
  4. UITabBarController使用总结
  5. java多线程学习
  6. discuz门户首页-header文件模板语法详解和注释
  7. SQL获取变量类型以及变量最大长度
  8. Web前端开发:SQL Jsp小项目(一)
  9. DICOM医学图像处理:DIMSE消息发送与接收“大同小异”之DCMTK fo-dicom mDCM
  10. Minimum Depth of Binary Tree ——LeetCode
  11. Hexo搭建静态个人博客
  12. javah编译class文件找不到android.app.Activity的类文件
  13. (转)MySql数据库索引原理(总结性)
  14. freemarker之list遍历(八)
  15. 2018-2019-2 网络对抗技术 20162329 Exp4 恶意代码分析
  16. vuex状态管理
  17. 【转】具透 | 你可能不知道,iOS 10 有一个中国「特供」的联网权限功能
  18. react使用setstate注意的两点
  19. Ex 2_16 给定一个无穷数组..._第二次作业
  20. Caused by: java.lang.ClassNotFoundException: Didn't find class "io.grpc.helloworldexample.HelloworldActivity" on path: DexPathList

热门文章

  1. PHP面试系列之Linux(一) ----- Linux基础
  2. cloudstack 用admin 账号创建虚拟机只是提示insufficient resource
  3. mac系统 IDEA+JFinal+Tomcat+Maven搭建
  4. Linux 内核版本号查看
  5. stateless 无状态组件
  6. Java中的集合框架-Collections和Arrays
  7. MySQL初体验--安装MySQL
  8. GoogleTest初探(2)
  9. 在TextBrowser显示中,如何让最新的数据永远出现在第一行或者是在窗口的最后显示信息
  10. 怎样获取最新版的javascript文件,解决被浏览器缓存的问题