欢迎转载,转载请注明:本文出自Bin的专栏blog.csdn.net/xbinworld

技术交流QQ群:433250724,欢迎对算法、技术感兴趣的同学加入。

神经网络,或者深度学习算法的参数初始化是一个很重要的方面,传统的初始化方法从高斯分布中随机初始化参数。甚至直接全初始化为1或者0。这样的方法暴力直接,但是往往效果一般。本篇文章的叙述来源于一个国外的讨论帖子[1],下面就自己的理解阐述一下。

首先我们来思考一下,为什么在神经网络算法(为了简化问题,我们以最基本的DNN来思考)中,参数的选择很重要呢?以sigmoid函数(logistic neurons)为例,当x的绝对值变大时,函数值越来越平滑,趋于饱和,这个时候函数的倒数趋于0,例如,在x=2时,函数的导数约为1/10,而在x=10时,函数的导数已经变成约为1/22000,也就是说,激活函数的输入是10的时候比2的时候神经网络的学习速率要慢2200倍!

为了让神经网络学习得快一些,我们希望激活函数sigmoid的导数较大。从数值上,大约让sigmoid的输入在[-4,4]之间即可,见上图。当然,也不一定要那么精确。我们知道,一个神经元j的输入是由前一层神经元的输出的加权和,xj=∑iai⋅wi+bj。因此,我们可以通过控制权重参数初始值的范围,使得神经元的输入落在我们需要的范围内。

一种比较简单、有效的方法是:权重参数初始化从区间均匀随机取值。

(−1d√,1d√),其中d是一个神经元的输入数量。

为了说明这样取值的合理性,先简单回顾一下几点基本知识:

1.符合均匀分布U(a,b)的随机变量数学期望和方差分别是——数学期望:E(X)=(a+b)/2,方差:D(X)=(b-a)²/12

2.如果随机变量X,Y是相互独立的,那么Var(X+Y) = Var(X)+Var(Y),如果X,Y是相互独立的且均值为0,那么Var(X*Y) = Var(X)*Var(Y)

因此,如果我们限制神经元的输入信号(xi)是均值=0,标准差=1的,那么

Var(wi)=(2d√)2/12=13d
Var(∑i=1dwixi)=d∗Var(wi)=13

也就是说,随机的d个输入信号加权和,其中权重来自于(−1d√,1d√)均匀分布,服从均值=0,方差=1/3的正态分布,且与d无关。所以神经元的输入落在区间[-4,4]之外的概率非常小。


更一般的形式可以写为:

∑i=0d<wixi>=∑i=0d<wi><xi>=0
⟨(∑i=0dwixi)(∑i=0dwixi)⟩=∑i=0d<w2i><x2i>=σ2d

另外一种较新的初始值方法

根据Glorot & Bengio (2010) [4], initialize the weights uniformly within the interval [−b,b], where

b=6Hk+Hk+1−−−−−−−−−√,

Hk and Hk+1 are the sizes of the layers before and after the weight matrix, for sigmoid units. Or hyperbolic tangent units: sample a Uniform [−b,b] with

b=46Hk+Hk+1−−−−−−−−−√,

其他场景的初始值方法[2]

  • in the case of RBMs, a zero-mean Gaussian with a small standard deviation around 0.1 or 0.01 works well (Hinton, 2010) to initialize the weights.

  • Orthogonal random matrix initialization, i.e. W = np.random.randn(ndim, ndim); u, s, v = np.linalg.svd(W) then use u as your initialization matrix.


参考资料

[1] http://stats.stackexchange.com/questions/47590/what-are-good-initial-weights-in-a-neural-network

[2] Bengio, Yoshua. “Practical recommendations for gradient-based training of deep architectures.” Neural Networks: Tricks of the Trade. Springer Berlin Heidelberg, 2012. 437-478.

[3] LeCun, Y., Bottou, L., Orr, G. B., and Muller, K. (1998a). Efficient backprop. In Neural Networks, Tricks of the Trade.

[4] Glorot, Xavier, and Yoshua Bengio. “Understanding the difficulty of training deep feedforward neural networks.” International conference on artificial intelligence and statistics. 2010.

最新文章

  1. C#.NET 大型企业信息化系统集成快速开发平台 4.2 版本 - 实现缓存预热
  2. 转载:持续集成之解决jenkins内存溢出问题
  3. linux中用户的主目录~
  4. JS代码判断字符串中有多少汉字
  5. UVA11181Probability|Given(条件概率)
  6. next().value和next().done
  7. 剑指架构师系列-Struts2的缓存
  8. Entity Framework 系统约定配置
  9. Limiting To Select Only 5 Check Boxes Out Of Ten In Oracle Forms
  10. cocos2d-x3.x使用rapidjson
  11. Dragons
  12. 游标、type使用示例
  13. Web API核查表:设计、测试、发布API时需思考的43件事[转]
  14. Android实现 再按一次退出 的三种方法 durationTime、timerTask 和Handler
  15. Java NIO学习笔记七 Non-blocking Server
  16. struts2简单入门-OGNL表达式
  17. ava新手入门详细介绍
  18. 正则表达式,grep,sed,
  19. 持续集成①安装部署jenkins从git获取代码
  20. Spring的生命周期

热门文章

  1. HDOJ.2072 单词数(map)
  2. github clone 指定的tag
  3. PHP汉字转拼音
  4. 爬虫实例——通过JS控制滚动条
  5. 如何给apk文件签名
  6. JQuery学习一
  7. 实现自己的Promise polyfill
  8. Android之简易音乐播发器
  9. java线程的3种创建方式及优缺点
  10. 命令行访问远程mysql数据库