Keskar N S, Mudigere D, Nocedal J, et al. On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima[J]. arXiv: Learning, 2016.

作者代码

@article{keskar2016on,

title={On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima},

author={Keskar, Nitish Shirish and Mudigere, Dheevatsa and Nocedal, Jorge and Smelyanskiy, Mikhail and Tang, Ping Tak Peter},

journal={arXiv: Learning},

year={2016}}

本文主要阐述了一种现象, 就是在我们训练网络的时候, 小的batch_size会比大的batch_size效果更好(表现在准确率上).

主要内容

因为作者主要是进行实验论证的, 所以就介绍一下结果, 我们用LB表示大的batch_size, SB表示小的batch_size.



作者认为, LB会导致参数尖化, 而SB会导致平坦的解, 个人感觉这种就是一个灵敏度的问题. 作者也说, LB会导致\(\nabla^2 f(x)\)呈现某个特征值特别大(绝对值), 其余特征值很小的情况, 而SB的\(\nabla^2 f(x)\)的特征值分布往往比较均匀.

注: 这里的\(x\)指的是网络的参数而非样本.

记LB训练后所对应的解为\(x^*_l\), 而SB训练后所对应的解为\(x^*_s\), 作者沿着俩个点的连续探索其landscape,

\[f(ax^*_l+(1-a)x_s^*), \quad a \in [-1,2],
\]

其结果如下



显然, 在\(\alpha=1\)处(即\(x=x_l^*\))左右的未知变化特别大, 这也反应了尖的特性.

一些解决办法

  1. data augmentation, 效果显著
  2. conservative training, 即采用proximal下降
\[\tag{5}
x_{k+1} = \argmin_x \frac{1}{|B_k|} \sum_{i \in B_k} f_i(x) + \frac{\lambda}{2} \|x - x_k\|_2^2,
\]

其中\(f_i\)表示输入为第\(i\)个样本.

3. robust training, 即利用原样本和对抗样本进行训练, 但是效果不是很明显(有可能是Goodfellow的机制不对? 新的是不需要利用原样本的).

最新文章

  1. MYSQL数据库忘记密码
  2. UIImagePickerController和UIAlertController结合使用
  3. 在Windows7 下调试CodeSmith 注意事项
  4. Node.js与Sails~Model数据模型
  5. Bootstrap源码分析之transition、affix
  6. JS快速获取图片宽高的方法
  7. (C#基础) byte[] 之初始化, 赋值,转换。(转)
  8. memcache的windows下的安装和简单使用
  9. [原创]AHA大会回顾
  10. SqlServer将表中数据复制到另一张表
  11. Linux守护进程详解(init.d和xinetd) [转]
  12. 用Access作为后台数据库支撑,书写一个C#写入记录的案例
  13. 《RHEL6.3权限的管理》
  14. Java IO3:字符流
  15. POJ 3186 Treats for the Cows 一个简单DP
  16. 简单的NHibernate学习笔记
  17. [Yii][RBAC]Yii中应用RBAC完全指南
  18. jQuery常用特效插件汇总
  19. ListCtrl控件着色
  20. api-gateway实践(01)服务网关 - 原型功能

热门文章

  1. day13 装饰器与语法糖
  2. [云原生]Docker - 镜像
  3. JavaScript的数据结构快速学-链表的实现
  4. 安全相关,xss
  5. C逗号表达式
  6. ORACLE 查询sql和存储性能思路
  7. CentOS Linux下编译安装MySQL
  8. springboot优雅实现异常处理
  9. jQuery - focusin/focusout/focus/blur事件的区别与不同
  10. feign中开启熔断的书写步骤