DQN发展历程(一)

DQN发展历程(二)

DQN发展历程(三)

DQN发展历程(四)

DQN发展历程(五)

动态规划

  • 动态规划给出了求解强化学习的一种方式

使用条件

  • 使用动态规划需要两个条件

    • 总问题可以分解成一系列相互重叠的子问题
    • 子问题的求解结果被存储下来并且可以重复使用
  • 强化学习对应以上两个条件
    • 贝尔曼等式满足了重叠子问题的分解,每个状态的值求解从当前状态到下一状态。
    • 值函数用于存储和复用子问题的求解结果

分类

  • 对于预测问题,动态规划方法输出的是每一状态的值
  • 对于控制问题,动态规划方法输出的是每一状态的策略

求解方法

  • 迭代策略:基于贝尔曼等式,每个状态值的求解从当前状态St到下一状态St+1,按此递推方法迭代。
  • 策略的改进方法:迭代,根据值选择最佳策略,每次更新通过贪婪法选择最大的值替换原先的值。
  • 异步动态规划:
    • 每次使用新的状态值更新旧的状态值In-place
    • 使用贝尔曼误差引导状态的选择,优先更新误差最大的状态
    • 更新状态值都使用状态的参数
  • 全状态的动态规划存储搜索每个状态空间,基于采样的动态规划和近似的动态规划减少了部分状态空间的使用
    Real-time dynamic programming

参考

david siver 课程

https://home.cnblogs.com/u/pinard/

最新文章

  1. HTTP Cookie详解
  2. 如何更改gnome-screenshot的默认的保存路径?
  3. COJ990 WZJ的数据结构(负十)
  4. HBuilder开发app ajax跨域 解决XMLHttpRequest
  5. java poi 导入excel
  6. sharepoint:拥有完全控制权限的用户依然“拒绝访问”
  7. Golang源码探索(一) 编译和调试源码
  8. 运行期以索引获取tuple元素-C++14
  9. 分别用命令行、NetBeans IDE 8.2实现firstcup 项目部署
  10. KnockoutJs学习笔记(五)
  11. elastichd安装部署
  12. DB2在dbvisualizer 客户端执行begi/end 语句块
  13. MySQL存储和获取数据
  14. JTAG 工作原理
  15. python-day2笔记
  16. linux基础命令---rm
  17. L3-021 神坛 (30 分)
  18. python类的继承-1
  19. CodeForces 81D.Polycarp's Picture Gallery 乱搞
  20. select和epoll

热门文章

  1. 根据python上下文管理,写一个在读文件内容前后自动打开关闭文件的程序
  2. python-命令模式
  3. 如何在Vue中建立全局引用或者全局命令
  4. TensorFlow Saver 保存最佳模型 tf.train.Saver Save Best Model
  5. singleInstance和singleTask导致startActivityForResult回调失败
  6. android控件跟随手势滑动改变位置
  7. Android 经典欧美小游戏 guess who
  8. Android IOC注解库EasyUI
  9. Python+Selenium笔记(十五)调用JS
  10. Prometheus Node_exporter 之 Network Netstat ICMP