zz1998_Efficient Backprop笔记
1998_Efficient Backprop笔记
A few practical tricks
1. Stochastic vs Batch learning
在最小值附近震荡的幅度与学习速率成比例,为了减小震荡,可以减小学习速率或者使用自适应的batch size。
有理论证明以下这种形式的学习速率最好:
其中t是类别数,c是一个常量,实际上,这个速率可能太快。
另一种消除噪声的方法是用mini-batch,就是开始用一个小的batch size,然后随着训练进行增加。但是如何增加和调整学习速率一样困难。
2. Shuffling the examples
网络从未知样本学习最快,因此要在每一次迭代选择最不熟悉的样本。这个方法只适用于SGD,最简单的方式是选择连续的不同类的样本。
3. Normalizing the inputs
4. The Sigmoid
用对称的sigmoid函数有一个潜在的问题,那就是误差平面会变得很平坦,因此应该避免用很小的值初始化weights。
5. Choosing Target Values
6. Initializing the weights
7. Choosing Learning Rates
一般情况下权重向量震荡时减小学习速率,而始终保持稳定的方向则增加,但是不适用于SGD和online learning,因为他们始终在震荡。
Momentum:
其中u是momentum的强度,当误差平面是非球形(nonspherical),它增加了收敛速度因为它减小了高曲率方向的step,从而在低曲率部分增加了学习速率的影响。它通常在batch learning中比SGD更有效。
Adaptive Learning Rates:
这个方法实际上很容易实现,其实就是track公式18中的矩阵,平均梯度r。这个矩阵的norm控制学习速率的大小。
8. Radial Basis Functions vs Sigmoid Units
RBF神经网络:
sigmoid单元可以覆盖整个输入空间,但是一个RBF单元只能覆盖一个小的局部空间,因此它的学习更快。但是在高维空间中它需要更多的单元去覆盖整个空间,因此RBF适合作为高层而sigmoid适合作为低层单元。
Convergence of Gradient Descent
1. A little theory
具体理论分析见文章。
结论:
如果对所有的weight约定一个学习速率,那么
2. Two examples
b. Multilayer Network
3. 以上的理论可以证明这几个tricks:
最新文章
- 【整理】深入理解拉格朗日乘子法(Lagrange Multiplier) 和KKT条件
- 分析sql语句所有表名及其别名的正则表达式
- APP抓链接工具(Fiddler版)
- CodeChef DISTNUM2 Easy Queries 节点数组线段树
- MongoDB 3 + Windows 7 X64安装及配置
- 查看binlog文件的2种方式
- 存根类STUB
- 字符集乱码问题:ISO-8859-1和GBK
- ***php 数组添加关联元素的方法小结(关联数组添加元素)
- CAGradientLayer实现色差动画
- for循环与foreach的区别
- iptables配置详解
- Tomcat+Servlet面试题都在这里
- 我发起了一个 支持 ServerFul 架构 的 .Net 开源项目 ServerFulManager
- 1.01-url-open_code
- A1125. Chain the Ropes
- Web前端开发推荐书籍
- 32 bit 与 64 bit 程序(1)如何识别?
- versionCode &; versionName
- kali黑客渗透测试基础环境准备
热门文章
- 用Python爬取猫眼上的top100评分电影
- 首次使用gradle出现Could not find method leftShift() for arguments解决办法
- 实验1c语言的开发环境使用和数据类型,运算符,表达式
- J2EE中的过滤器和拦截器
- JeeSite | 数据权限应用
- pycharm报错:ImportError: libcusolver.so.8.0: cannot open shared object file: No such file or directory
- Unsupervised Attention-guided Image-to-Image Translation
- Spring源码系列 — Envoriment组件
- 5种IO模型、阻塞IO和非阻塞IO、同步IO和异步IO
- Spring-AOP源码分析随手记(一)