Policy Gradient
2024-10-18 10:57:04
Policy Gradient是区别于Q-Learning为代表的value based的方法。policy gradient又可以叫reinforce算法(Williams, 1992)。
如今的ACTOR-CRITIC也就是基于policy gradient。该方法不能制表,只能对policy进行参数化。
然后它能处理连续action输出的问题。
DDPG似乎又不太一样,难道DDPG的任务都要求policy网络参数初始化很好,以便action不会陷入局部最优?所以要多训练几个policy网络?
最新文章
- Spring下ActiveMQ实战
- 常见的几个meta标签元素
- JSFuck奇葩的js编码
- 快速入门系列--NOSQL--07MongoDB
- [UWP]涨姿势UWP源码——IsolatedStorage
- Graphics 导出图片使用【这个主要是画图类图的使用,记录一下】
- gcc、g++
- 用iDSDT制作声显卡DSDT
- 左右推拽显示对比图 - jQyery封装 - 附源文件
- SSCTF-Final-Re-Play
- 【iOS】Swift字符串截取方法的改进
- Spark RDD算子介绍
- 文件上传----FTP部署
- [数据预处理]-中心化 缩放 KNN(一)
- hibernate_xml映射exception
- SpringBoot入门之简单配置
- 7-20 jquery遍历节点,bootstrap模态框绑定事件和解绑,mock.js,model.urlroot,id,打基础
- ASP.NET Core的JWT的实现(自定义策略形式验证).md
- Linux使用百度云
- 闽南师范大学·大英A3复习专题