机器人是否能应用于服务最终还是那两条腿值多少钱,而与人交互,能真正地做“服务”工作,还是看那两条胳膊怎么工作。大脑的智能化还是非常遥远的,还是先把感受器和效应器做好才是王道。

关于强化学习,根据Agent对策略的主动性不同划分为主动强化学习(学习策略:必须自己决定采取什么行动)和被动强化学习(固定的策略决定其行为,为评价学习,即Agent如何从成功与失败中、回报与惩罚中进行学习,学习效用函数)。

被动强化学习:EnforceLearning-被动强化学习

主动强化学习:EnforceLearning-主动强化学习

文章:SACX新范式,训练用于机器人抓取任务

DeepMind提出调度辅助控制(Scheduled Auxiliary Control,SACX),这是强化学习(RL)上下文中一种新型的学习范式。SAC-X能够在存在多个稀疏奖励信号的情况下,从头开始(from scratch)学习复杂行为。为此,智能体配备了一套通用的辅助任务,它试图通过off-policy强化学习同时从中进行学习。

这个长向量的形式化以及优化为论文的亮点。

In this paper, we introduce a new method dubbed Scheduled Auxiliary Control (SAC-X), as a first step towards such an approach. It is based on four main principles:
    1. Every state-action pair is paired with a vector of rewards, consisting of ( typically sparse ) externally provided rewards and (typically sparse) internal auxiliary rewards.
     2. Each reward entry has an assigned policy, called intention in the following, which is trained to maximize its corresponding cumulative reward.
     3. There is a high-level scheduler which selects and executes the individual intentions with the goal of improving performance of the agent on the external tasks.
     4. Learning is performed off-policy ( and asynchronouslyfrom policy execution ) and the experience between intentions is shared – to use information effectively. Although the approach proposed in this paper is generally applicable to a wider range of problems, we discuss our method in the light of a typical robotics manipulation applica tion with sparse rewards: stacking various objects and cleaning a table。
        由四个基本准则组成:状态配备多个稀疏奖惩向量-一个稀疏的长向量;每个奖惩被分配策略-称为意图,通过最大化累计奖惩向量反馈;建立一个高层的选择执行特定意图的机制用以提高Agent的表现;学习是基于off-policy(新策略,Q值更新使用新策略),且意图之间的经验共享增加效率。总体方法可以应用于通用领域,在此我们以典型的机器人任务进行演示。
        基于Off-Play的好处:https://www.zhihu.com/question/57159315
       

论文:Learning by Playing – Solving Sparse Reward Tasks from Scratch

最新文章

  1. LINUX 常用命令 ps 详解
  2. PHP钩子机制
  3. LayaAir引擎——(五)
  4. mysql单表多timestamp的current_timestamp设置问题
  5. Django--models一对多实例
  6. 常用HTML正则
  7. 【转】如何使用Android Studio把自己的Android library分发到jCenter和Maven Central
  8. django models使用学习记录
  9. -_-#【Better Code】throttle / debounce
  10. 【Java】 实现一个简单文件浏览器(2)
  11. HDU 1147 Pick-up sticks
  12. Linux基础(七)
  13. javascript之BOM地址栏对象(Location)
  14. AspNetCore 基于AOP实现Polly的使用
  15. C语言博客作业6---结构体&文件
  16. 强大的jQGrid的傻瓜式使用方法。以及一些注意事项,备有相应的引入文件。
  17. centos设置服务开机启动失败问题
  18. Latex自定义文档纸张大小
  19. Hive-1.2.1_03_DDL操作
  20. centos设置中文输入法无效的解决办法

热门文章

  1. [React] Prevent Unnecessary Rerenders of Compound Components using React Context
  2. 初探FFT在数字图像处理中的应用(fft2函数的用法)
  3. C#.NET 如何打开高版本的sln文件
  4. kvm虚拟化网络管理
  5. 单一责任原则(SRP)
  6. c# Http下载
  7. java8-接口变化-默认方法-静态方法
  8. Android 的坑一 :android.content.res.Resources$NotFoundException: String resource ID #0x0 找不到资源文件ID #0x0
  9. java连接Oracle案例
  10. 排名Top 100的Java类库