CSE599:online and adaptive machine learning

Lecture 3:Stochastic Multi-Armed Bandits, Regret Minimization

csdn  bandit 算法(3) -- UCB算法

推荐系统的EE问题及Bandit算法

https://x-algo.cn/index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/

https://zhuanlan.zhihu.com/p/32356077

除了 DQN/A3C,还有哪些高级强化学习成果

斯坦福提出无需人类示范的强化学习算法 SOORL

深度神经网络和强化学习这对cp在模仿人类打游戏方面可谓是取得了不小的进步。但是这些智能体往往需要数百万个步骤进行训练,但是人类在学习新事物时效率可要高多了。我们是如何快速学习高效的奖励的,又是怎样让智能体做到同样水平的?

有人认为,人们学习并利用能解释世界如何运行的结构化模型,以及能用目标而不是像素表示世界的模型,从而智能体也能靠同样的方法从中获得经验。

具体来说,我们假设同时具备三个要素即可:运用抽象的目标水平的表示、学习能快速学习世界动态并支持快速计划的模型、利用前瞻计划进行基于模型的策略探索。

在这一思想的启发下,我们提出了策略目标强化学习(SOORL)算法,据我们所知,这是第一个能在雅达利游戏Pitfall!中能到积极奖励的算法。重要的是,该算法在这一过程中不需要人类的示范,可以闯过50关。SOORL算法利用强大的先验知识而非传统的深度强化学习算法,对环境中的目标和潜在的动态模型有了了解。但是相比于需要人类示范的方法来说,SOORL算法所掌握的信息就少了很多。  

 

SOORL在两方面超过了之前以目标为导向的强化学习方法:

  • 智能体在积极尝试选择一种简单模式,该模式解释了世界是如何运作的从而看起来是决定性的
  • 智能体用一种基于模型的积极计划方法,在做决定时假设智能体不会计算出一个完美的计划来应对即使知道世界怎样运作后会有何反应。

这两种方法都是从人类遇到的困难中受到的启发——先前经验很少,同时算力有限,人类必须快速学习做出正确的决定。为了达到这一目标,我们第一条方法发现,与复杂的、需要大量数据的深度神经网络模型不同,如果玩家按下的某一按键需要很少经验来估计,那么简单的决定性模型可以减少计划所需的计算力,尽管会经常出错,但对达到良好的效果已经足够了。第二,在奖励分散、复杂的电子游戏中,玩一场游戏可能需要成百上千个步骤,对于任何一个计算力有限的智能体来说,想在每个步骤都作出合适的计划是非常困难的,就算是12岁的小孩也是如此。我们用一种常用并且强大的方法做前瞻计划,即蒙特卡洛树搜索,将其与目标导向的方法结合,用作最优策略的探索,同时指导智能体学习它不了解的世界的环境。

 

Hybrid computing using a neural network with dynamic external memory

Bayesian Deep Learning

NIPS 2018 workshop

Relation DRL

Relation inductive bias for physical construction in humans and machines

Relation inductive biases, deep learning and graph networks

Relational recurrent neural networks

Neural Ordinary Differential Equations

CNN 已老,GNN来了 图网络让深度学习也能因果推理

生成式对抗网络GAN有哪些最新的发展,可以实际应用到哪些场景中? - 知乎 https://www.zhihu.com/question/52602529

最新文章

  1. springMVC 的工作原理和机制
  2. SAP Query工具(一 Overview)
  3. HoverTree项目已经实现分层
  4. FastReport报表对象介绍一:“Text”对象
  5. QT连接多种数据库f方法及测试
  6. hdu 4405 Aeroplane chess(概率+dp)
  7. process有个env属性,env属性就是环境变量,里面可以访问到NODE_ENV;NODE_ENV是在启动nodejs时添加上去的;
  8. eclipse 标签标题乱码解决方法
  9. FineBI如何在web页面中嵌入式集成
  10. Hibernate(七):*.hbm.xml配置文件中Set三个属性
  11. ES6--浅析Promise内部结构
  12. maven配置及IDEA配置maven环境
  13. 2018-2019-2 20165316 《网络对抗技术》 Exp6 信息搜集与漏洞扫描
  14. 10. Firewalls (防火墙 2个)
  15. react组件传值传方法
  16. java线程和多线程同步
  17. linux /proc目录说明(访问内核数据结构,修改内核设置)
  18. Redis基本管理
  19. 存在重复元素(python3)
  20. Python2.7-zlib

热门文章

  1. 数据分析常用的Excel函数
  2. OpenCV 相机标定 findChessboardCorners() 与 cornerSubPix() 函数
  3. 响应国家号召 1+X 证书 Web 前端开发考试模拟题
  4. python 中in 的 用法
  5. Jsp自学1
  6. Easyui datagrid扩展子网格detailview增删改查详解
  7. MicroPython:基于TPYBoard集合MAX7219点阵模块制作表白女神神器
  8. java架构之路(mysql底层原理)Mysql之Explain使用详解
  9. 一个JAVA应用启动缓慢问题排查 --来自jdk securerandom 的问候
  10. 一篇文章,带你玩转MVVM,Dapper,AutoMapper