Q学习动作探索策略中的ep-greepy,以ep的概率进行随机探索,以1-ep的概率以最大值策略进行开发,因为设定的迭代次数比较多,所以肯定存在一定的次数去搜索不同的动作。

1)Python版本

b站上的学习教程https://blog.csdn.net/qq_36124802/article/details/79882269,其中的pandas,np是数据处理包。使用其他语言也是可以的,用矩阵代替,主要是用多维矩阵保存数据,然后对矩阵进行计算处理。

2)c语言版本

https://blog.csdn.net/qq_23144435/article/details/80368635

3)C++版本

https://github.com/jinfagang/Q-Learning/blob/master/main.cpp

4)一个完整的unity demo项目,使用c# 语言

https://github.com/Unity-Technologies/Q-GridWorld/tree/master/Assets

最新文章

  1. mysql can't create threads in threadpool
  2. libCURL开源库在VS2010环境下编译安装,配置详解
  3. DS实验题 Old_Driver UnionFindSet结构
  4. Asp.net中全局缓存的几种方式
  5. PL/SQL 如何导出INSERT语句
  6. google map api 学习笔记
  7. Python多线程(threading模块)
  8. BZOJ 1770: [Usaco2009 Nov]lights 燈( 高斯消元 )
  9. 怎样在Windows和Linux下写相同的代码
  10. EasyNet.Solr 4.4.0发布及例子
  11. jsp Ajax请求(返回json数据类型)
  12. JAVA中GridBagLayout布局管理器应用详解
  13. 正版STLINK使用注意
  14. Zookeeper应用之——队列(Queue)
  15. JDK8漫谈——代码更优雅
  16. Android开源框架Afinal第一篇——揭开圣女的面纱
  17. oracle中实现当前月减少或增加N个月
  18. layui小封装方法
  19. ROS知识(2)----理解ROS系统结构
  20. jQuery on()方法绑定动态元素的点击事件无响应的解决办法

热门文章

  1. SQL Server经典sql语句大全(转)
  2. ASP.NET + MVC5 入门完整教程八 -—-- 一个完整的应用程序(下)
  3. while、for循环结构_python
  4. Linux - shell - xargs - 基础
  5. mysql 同时支持多少连接MYSQL 查看最大连接数和修改最大连接数
  6. win10 解决.net framework 3.5 安装报错 0x80240438
  7. linux中systemctl详细理解及常用命令
  8. fileupload插件调用upload.parseRequest(request)解析得到空值问题
  9. docker互联机制实现便捷互访
  10. linux文件或文件夹常见操作,排查部署在linux上程序问题常用操作