https://www.zhihu.com/question/64134994

1、增加batch size会使得梯度更准确,但也会导致variance变小,可能会使模型陷入局部最优;

2、因此增大batch size通常要增大learning rate,比如batch size增大m倍,lr增大m倍或者sqrt(m)倍,但并不固定;

3、learning rate的增加通常不能直接增加太大,一般会通过warm up逐步增大;

4、warm up策略参考 Bag of Freebies for Training Object Detection Neural Networks

准备用m个batches来热身,准备的初始学习率是 ,然后在每个batch ,将每次的学习率设为 i*n/m

最新文章

  1. [原] KVM 虚拟化原理探究(2)— QEMU启动过程
  2. oracle dblink的创建方式
  3. 问题: Oracle Database 10g 未在当前操作系统中经过认证
  4. Android Studio中的六种依赖
  5. SQL分组取每组前一(或几)条记录(排名)
  6. 用 Javascript 获取页面大小、窗口大小和滚动条位置
  7. 【Java/Android性能优化1】Android性能调优
  8. start with connect by prior学习
  9. Webpack插件开发简要
  10. c++工程重复编译与重复定义
  11. Dynamics CRM 系统自定义部分的语言翻译
  12. 周强 201771010141面向对象程序设计(java)》第十七周学习总结
  13. HDU 2795 Billboard【点修改】
  14. golang fmt格式“占位符”
  15. <1>lua编译环境 数据类型和局部变量
  16. 欧几里得算法(及扩展)&&快速幂(二分+位运算)
  17. win10禁止更新的方法
  18. [label][翻译][JavaScript]如何使用JavaScript操纵radio和check boxes
  19. WebSettings 文档 API 翻译 常用设置
  20. VB调用VC dll的返回方式

热门文章

  1. Java 实现日期 Date 的赋值
  2. Linux下用jar命令更新jar包文件
  3. vundle就是vim bundle的插件管理成ide
  4. vue 表格组件分享
  5. TCP/IP 网络模型
  6. LAMP框架
  7. numpy的linalg.norm()函数求范数
  8. selenium:css_selector定位详解(css selector和xpath的比较)
  9. CentOS 7.6 RPM方式安装Oracle19c的过程
  10. nginx 事件机制原理