Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。

如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表,只能对policy进行参数化。

然后它能处理连续action输出的问题。

DDPG似乎又不太一样,难道DDPG的任务都要求policy网络参数初始化很好,以便action不会陷入局部最优?所以要多训练几个policy网络?

最新文章

  1. Spring下ActiveMQ实战
  2. 常见的几个meta标签元素
  3. JSFuck奇葩的js编码
  4. 快速入门系列--NOSQL--07MongoDB
  5. [UWP]涨姿势UWP源码——IsolatedStorage
  6. Graphics 导出图片使用【这个主要是画图类图的使用,记录一下】
  7. gcc、g++
  8. 用iDSDT制作声显卡DSDT
  9. 左右推拽显示对比图 - jQyery封装 - 附源文件
  10. SSCTF-Final-Re-Play
  11. 【iOS】Swift字符串截取方法的改进
  12. Spark RDD算子介绍
  13. 文件上传----FTP部署
  14. [数据预处理]-中心化 缩放 KNN(一)
  15. hibernate_xml映射exception
  16. SpringBoot入门之简单配置
  17. 7-20 jquery遍历节点,bootstrap模态框绑定事件和解绑,mock.js,model.urlroot,id,打基础
  18. ASP.NET Core的JWT的实现(自定义策略形式验证).md
  19. Linux使用百度云
  20. 闽南师范大学·大英A3复习专题

热门文章

  1. [svc]ssh批量分发key/批量用户管理
  2. OpenStack的基本概念与架构图
  3. 灾备系统的评判指标:RTO、RPO
  4. JavaScript 记录页面停留时间-通过测试
  5. MyBean-关于plugMap共享对象
  6. ffmpeg与H264编码指南
  7. 【Java】自动类型转换规则
  8. python dict与list
  9. hdu1102(最小生成树水题)
  10. HTML 学习笔记一