1998_Efficient Backprop笔记

A few practical tricks

1. Stochastic vs Batch learning

在最小值附近震荡的幅度与学习速率成比例,为了减小震荡,可以减小学习速率或者使用自适应的batch size。

有理论证明以下这种形式的学习速率最好:

其中t是类别数,c是一个常量,实际上,这个速率可能太快。

另一种消除噪声的方法是用mini-batch,就是开始用一个小的batch size,然后随着训练进行增加。但是如何增加和调整学习速率一样困难。

2. Shuffling the examples

网络从未知样本学习最快,因此要在每一次迭代选择最不熟悉的样本。这个方法只适用于SGD,最简单的方式是选择连续的不同类的样本。

3. Normalizing the inputs

4. The Sigmoid

用对称的sigmoid函数有一个潜在的问题,那就是误差平面会变得很平坦,因此应该避免用很小的值初始化weights。

5. Choosing Target Values

6. Initializing the weights

7. Choosing Learning Rates

一般情况下权重向量震荡时减小学习速率,而始终保持稳定的方向则增加,但是不适用于SGD和online learning,因为他们始终在震荡。

Momentum:

其中u是momentum的强度,当误差平面是非球形(nonspherical),它增加了收敛速度因为它减小了高曲率方向的step,从而在低曲率部分增加了学习速率的影响。它通常在batch learning中比SGD更有效。

Adaptive Learning Rates:

这个方法实际上很容易实现,其实就是track公式18中的矩阵,平均梯度r。这个矩阵的norm控制学习速率的大小。

8. Radial Basis Functions vs Sigmoid Units

RBF神经网络:

sigmoid单元可以覆盖整个输入空间,但是一个RBF单元只能覆盖一个小的局部空间,因此它的学习更快。但是在高维空间中它需要更多的单元去覆盖整个空间,因此RBF适合作为高层而sigmoid适合作为低层单元。

Convergence of Gradient Descent

 

1. A little theory

具体理论分析见文章。

理论内容包括:特征向量和特征值,Hessian矩阵,协方差矩阵

结论:

如果对所有的weight约定一个学习速率,那么

2. Two examples

b. Multilayer Network

3. 以上的理论可以证明这几个tricks:

最新文章

  1. 【整理】深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
  2. 分析sql语句所有表名及其别名的正则表达式
  3. APP抓链接工具(Fiddler版)
  4. CodeChef DISTNUM2 Easy Queries 节点数组线段树
  5. MongoDB 3 + Windows 7 X64安装及配置
  6. 查看binlog文件的2种方式
  7. 存根类STUB
  8. 字符集乱码问题:ISO-8859-1和GBK
  9. ***php 数组添加关联元素的方法小结(关联数组添加元素)
  10. CAGradientLayer实现色差动画
  11. for循环与foreach的区别
  12. iptables配置详解
  13. Tomcat+Servlet面试题都在这里
  14. 我发起了一个 支持 ServerFul 架构 的 .Net 开源项目 ServerFulManager
  15. 1.01-url-open_code
  16. A1125. Chain the Ropes
  17. Web前端开发推荐书籍
  18. 32 bit 与 64 bit 程序(1)如何识别?
  19. versionCode & versionName
  20. kali黑客渗透测试基础环境准备

热门文章

  1. 用Python爬取猫眼上的top100评分电影
  2. 首次使用gradle出现Could not find method leftShift() for arguments解决办法
  3. 实验1c语言的开发环境使用和数据类型,运算符,表达式
  4. J2EE中的过滤器和拦截器
  5. JeeSite | 数据权限应用
  6. pycharm报错:ImportError: libcusolver.so.8.0: cannot open shared object file: No such file or directory
  7. Unsupervised Attention-guided Image-to-Image Translation
  8. Spring源码系列 — Envoriment组件
  9. 5种IO模型、阻塞IO和非阻塞IO、同步IO和异步IO
  10. Spring-AOP源码分析随手记(一)