Q-Learning和Sarsa一样是基于时序差分的控制算法,那两者有什么区别呢?

这里已经必须引入新的概念

时序差分控制算法的分类:在线和离线

在线控制算法:一直使用一个策略选择动作和更新价值函数,如Sarsa

离线控制算法:两个策略,一个选择新的动作,一个更新价值函数,如Q-Learning

Q-Learning简介

在S下基于ε-贪心策略选择动作A,执行A,获得奖励R,并进入下一个状态S’,

接下来如果是Sarsa,将继续基于ε-贪心策略选择动作A’,利用Q(S',A')更新价值函数,并在下一轮执行A’,这就是在线算法,学到什么就执行什么

但是Q-Learning则不同,它将基于贪心策略选择动作A’,利用Q(S',A')更新价值函数,但是在下一轮并不执行A',而是又基于ε-贪心策略选择动作,这就是离线算法,学到什么不一定执行什么

价值更新方式  Q(S,A)=Q(S,A)+α(R+γmaxaQ(S′,a)−Q(S,A))

对比Sarsa    Q(S,A)=Q(S,A)+α(R+γQ(S′,A′)−Q(S,A))

对比MC     Q(S,A)=Q(S,A)+(1/N)(Gt−Q(S,A))

在更新q值时,选择什么就执行什么,

在选择动作时,sarsa选择什么就执行什么,Q-Learning选择什么不一定执行什么

Q-Learning算法描述

输入:{S A R γ α ε},迭代轮数T

输出:所有的状态和动作对应的价值Q

1. 随机初始化所有的状态和动作对应的价值Q. 对于终止状态其Q值初始化为0.

2. for i from 1 to T,进行迭代。

  a) 初始化S为当前状态序列的第一个状态。

  b) 用 ε-贪婪法 在当前状态S选择动作A

  c) 在状态S执行当前动作A,得到新状态S’和奖励R

  d) 更新价值函数Q(S,A)=Q(S,A)+α(R+γmaxaQ(S′,a)−Q(S,A))

  e) S=S′

  f) 如果S'是终止状态,当前轮迭代完毕,否则跳转到步骤b)

Q-Learning解决Windy GridWorld

for i in range(10000):
# 10000 轮
while True:
maxq0, r0, stat_0, action0 = choose(start) # e 贪心
if stat_0 == end:
start = [3, 0]
break maxq, r, stat_1, action = choose_max(stat_0) # 贪心
q[get_q_x(start), actions.index(action0)] += alpha * (r0 + maxq - q[get_q_x(start), actions.index(action0)])
start = stat_0

结果同Sarsa

Sarsa 与 Q-Learning 的比较

Sarsa在学习最优策略的同时还在做探索,而Q-Learning直接学习最优策略

这使得

1. Sarsa在训练时,为了保证收敛,需要设定规则,逐渐减小探索率,Q-Learning则不需要

2. Q-Learning直接学习的最优策略,而最优策略是基于当前数据的,这等于放弃了其他更好的机会,可能收敛于局部最优,Q-Learning的强化版Deep Q-Learning也有这个问题

3. Sarsa属于保守型,Q-Learning属于激进派

  // 好比传销的洗脑,骗子告诉你今天干得好能挣1000块钱,明天干得好能挣5000块钱,但是如果不好好干,可能只有100块,Sarsa听了,觉得干好了才能多挣钱,万一干不好,哎,慢慢来吧,而Q-Learning听了,一算,我今天挣1000,明天5000,发财了,于是立即成为忠实的传销分子,这就是急于求成,容易出错

  // 对应到算法上,就是Sarsa训练的模型比较平滑,而Q-Learning陡峭,可能局部最优

4. 在实际应用中,如果在模拟环境中训练模型,推荐Q-Learning,如果在真实环境中训练模型,推荐Sarsa

总结

Q-Learning和Sarsa一样,很灵活,但是不适合解决大规模问题

最新文章

  1. HTML补充
  2. Angular JS中 Promise用法
  3. 创建和编辑 crontab 文件
  4. DOM 之 document 查找元素方法
  5. HDU1879 继续畅通工程 (并查集)
  6. ZOJ 1025 Wooden Sticks
  7. HTTPS和HTTP有什么区别?如何将HTTP转化成HTTPS
  8. 2.3 PCI桥与PCI设备的配置空间
  9. 在.NET Core中使用Exceptionless分布式日志收集框架
  10. 如何取消-"插入耳机自动显示提示框"
  11. does not support SSL connections
  12. 对线程发送signal
  13. Codeforces 1005 E2 - Median on Segments (General Case Edition)
  14. LeetCode--020--括号匹配
  15. 根据id获取某一类的最大最小值
  16. Kafka单机环境的部署
  17. django 文档生成器
  18. Alpine Linux:如何配置GUI的图形桌面环境:x Desktop Environment
  19. 分享一个经验,代码打开mysql链接,执行存储过程时,提示:Table 'mysql.proc' doesn't exist
  20. 数组元素的移动(删除) C#实现

热门文章

  1. HDOJ 1023 Train Problem II
  2. asyncio创建协程解析——分析廖雪峰的Python教程之创建WEB服务(转)
  3. spring boot(八)RabbitMQ使用
  4. 笔记react router 4(一)
  5. webapp检测安卓app是否安装并launch
  6. NOIP2016玩具谜题
  7. python操作文件(增、删、改、查)
  8. CSS三列布局之左右宽度固定,中间元素自适应问题
  9. redis sentinel哨兵模式集群搭建教程
  10. Java集合list,map,set区别及遍历