马尔可夫决策过程MDP,是强化学习的基础。

MDP --- <S,A,P,R,γ>

AGENT

STATE

ENV 

REWARD   ,由ENV给出。agent处于状态s下,采取action之后离开状态获得一个reward。即f:S x A --->R

所有强化学习问题解决的目标都可以描述成最大化累积奖励。All goals can be described by the maximisation of expected cumulative reward。即我们的目标是最大化G

ACTION     ,离散分布,或者连续分布。

POLICY     ,策略。 π :S x A --->[0,1]

  |——Deterministic policy: a = π(s)

  |——Stochastic policy: π(a|s) = P[At = a|St = s]                    //一个典型的随机策略 e-greedy policy derived from Q

VALUE       ,a prediction of future reward;       形象地说AGENT.VALUE是agent对env的感觉,这样好,那样不好,对这个感到舒服,对那个感到upside

  |——state value V(s),表示State好坏的量。V(s)的值代表了State s的好坏。好坏是对于未来reward累积而言的。

  |    

  |——state-action value Q(s,a),

  |          

下面是一个”迷宫游戏“的例子:


    

以及算法中基本上用不到的概念Model,我们也给画出来:

History & Observation & State三个概念辩解:

如下图中,红框为History,黑圈为Observation。

至于State,要看f()是如何定义的,St = f(Ht),f()是我们人为定义的。

AGENT分为以下三类:

Model free和Model based辩解:

我们进一步把RL算法分为Model free和Model based两类。

Model based算法需要全知env,或者说已知Reward(s,a) for any (s,a)

Model free算法不需要全知env。

最新文章

  1. 设计模式之美:Visitor(访问者)
  2. 淘宝(阿里百川)手机客户端开发日记第十二篇 mysql的认识
  3. BZOJ4293 [PA2015]Siano(线段树)
  4. qt 汉化 国际化
  5. UVA11552:Fewest Flops
  6. JavaScript脚本放在哪里用户体验好
  7. wireshark 抓包过滤器使用
  8. 【公众号系列】超详细SAP HANA JOB全解析
  9. MySQL 1053错误 服务无法正常启动的解决方法
  10. 使用bat脚本部署hexo到coding和github
  11. 实践出真知-所谓&quot;java没有指针&quot;,那叫做引用!
  12. Direct3D 11 Tutorial 4: 3D Spaces_Direct3D 11 教程4:3D空间
  13. php一些简单的作业题
  14. Robust Real-time Object Detection学习
  15. Linq测试/查看工具——LinqPad
  16. springmvc框架开发中解决产生的乱码情况
  17. 如何配置php客户端(phpredis)并连接Redis--华为DCS for Redis使用经验系列
  18. 使用powerdesinger逆向生成表结构
  19. wind10优化
  20. Codeforces Round #299 (Div. 2)A B C 水 dfs 二分

热门文章

  1. 移动端web(1)
  2. UDP打洞实验
  3. vue ref父子组件传值
  4. 图片转换到指定大小PDF
  5. 一步步教你整合SSM框架(Spring MVC+Spring+MyBatis)详细教程重要
  6. Stm32CubeMx lwip+freeRTOS TCP 服务
  7. other#nginx配置
  8. 059、Java中定义一个有参数无返回值的方法
  9. 010-PHP输出数组中第某个元素
  10. NO11 SSH故障排查思路和netstat命令