DQN(Deep Reiforcement Learning) 发展历程(二)
2024-09-25 06:03:25
动态规划
- 动态规划给出了求解强化学习的一种方式
使用条件
- 使用动态规划需要两个条件
- 总问题可以分解成一系列相互重叠的子问题
- 子问题的求解结果被存储下来并且可以重复使用
- 强化学习对应以上两个条件
- 贝尔曼等式满足了重叠子问题的分解,每个状态的值求解从当前状态到下一状态。
- 值函数用于存储和复用子问题的求解结果
分类
- 对于预测问题,动态规划方法输出的是每一状态的值
- 对于控制问题,动态规划方法输出的是每一状态的策略
求解方法
- 迭代策略:基于贝尔曼等式,每个状态值的求解从当前状态St到下一状态St+1,按此递推方法迭代。
- 策略的改进方法:迭代,根据值选择最佳策略,每次更新通过贪婪法选择最大的值替换原先的值。
- 异步动态规划:
- 每次使用新的状态值更新旧的状态值In-place
- 使用贝尔曼误差引导状态的选择,优先更新误差最大的状态
- 更新状态值都使用状态的参数
- 全状态的动态规划存储搜索每个状态空间,基于采样的动态规划和近似的动态规划减少了部分状态空间的使用
Real-time dynamic programming
参考
david siver 课程
https://home.cnblogs.com/u/pinard/
最新文章
- HTTP Cookie详解
- 如何更改gnome-screenshot的默认的保存路径?
- COJ990 WZJ的数据结构(负十)
- HBuilder开发app ajax跨域 解决XMLHttpRequest
- java poi 导入excel
- sharepoint:拥有完全控制权限的用户依然“拒绝访问”
- Golang源码探索(一) 编译和调试源码
- 运行期以索引获取tuple元素-C++14
- 分别用命令行、NetBeans IDE 8.2实现firstcup 项目部署
- KnockoutJs学习笔记(五)
- elastichd安装部署
- DB2在dbvisualizer 客户端执行begi/end 语句块
- MySQL存储和获取数据
- JTAG 工作原理
- python-day2笔记
- linux基础命令---rm
- L3-021 神坛 (30 分)
- python类的继承-1
- CodeForces 81D.Polycarp's Picture Gallery 乱搞
- select和epoll
热门文章
- 根据python上下文管理,写一个在读文件内容前后自动打开关闭文件的程序
- python-命令模式
- 如何在Vue中建立全局引用或者全局命令
- TensorFlow Saver 保存最佳模型 tf.train.Saver Save Best Model
- singleInstance和singleTask导致startActivityForResult回调失败
- android控件跟随手势滑动改变位置
- Android 经典欧美小游戏 guess who
- Android IOC注解库EasyUI
- Python+Selenium笔记(十五)调用JS
- Prometheus Node_exporter 之 Network Netstat ICMP