看到一篇将如何计算caffemodel大小的blog,感觉对理解模型大小很有帮助.

原文地址:http://blog.csdn.net/u014696921/article/details/52413561

  1. 模型参数很大一部分在于全连接层,而全连接层的参数 取决于全连接层的神经元个数 以及 前一层输出的feature maps 的神经元个数,前一层 feature maps的神经元个数非常重要!! 如果网络设计的不合理,在全连接层之前,feature maps 还是很大,那么全连接层的参数会非常非常多!举个例子,经典Lenet非常小吧? 28*28 的 Mnist 图片 经过 conv1: 5*5 pool1: 2*2 conv2: 5*5 pool2: 2*2

    到达全连接层之前的feature maps 是 4*4*50 (50是conv2的卷积核数 ),那么全连接层一的参数就是

    4*4*50*500 = 400,000 ,40万个参数

    但是如果把227*227的直接扔进去呢? 经过:conv1: 5*5 pool1: 2*2 conv2: 5*5 pool2: 2*2 ,

    到达全连接层之前的feature maps 是 54*54*50,那么全连接层一的参数是 54*54*50*500 =72,900,000 直接多出 54*54 / (4*4) = 182.25 倍的参数

所以网络的设计(卷积层+pool层) 应该与图片的输入相匹配,否则网络参数会”爆炸”

以下是caffemodel所占内存的计算方法:

虽然之前有大概想过caffemodel的大小的估算方法,但是一直没有自己亲自算一算,最近心血来潮,把这件事情给干了,下面是我的计算方法,在这里和各位朋友分享交流。

caffemodel是训练过程中产生的文件,里面主要存放的是网络模型中各层的w和b参数,另外还存放网络形状等其它的一些信息。所以我们可以看到,caffemodel的大小主要取决于模型的w和b参数的数量。

w和b参数的数量主要由下面的两个因素决定:

1. 网络结构。比如:卷积层数量,全连接层数量,卷积核大小、个数等等;
2. 网络输入。当网络含有全连接层的时候需要考虑这个因素,我在下面还会结合例子做具体的解释。

下面先给出一个简单的例子:

假设网络总共有10000个w和b参数,这些参数用float类型(4 Bytes)的变量表示,caffemodel的大小将大约是4*10000=40000 Bytes(会稍微大一点,因为caffemodel中除了存放参数还会存放类似上面提到的网络形状等等一些其它信息)。


下面再给出一个caffe中的具体例子(mnist的lenet_train_test.prototxt):

http://www.cnblogs.com/denny402/p/5106764.html的方法画出网络模型图如下(图片有点小~~具体的数字可以参考 lenet_train_test.prototxt):

该网络主要有两个卷积层和两个全连接层,具体可以简化如下图(两个卷积层的卷积核都为5*5,步长stride都为1,两个pool层都为2*2,步长为2):

下面是对各层w和b参数的计算,(如果对参数数量计算方式不是很了解的可以参看下面的这篇博文: http://blog.csdn.net/zouxy09/article/details/8781543

conv1:
w数量:5*5*1*20=500
b数量:20 conv2:
w数量:5*5*20*50=25000
b数量:50 ip1:
w数量:1*1*(4*4*50)*500=400000
b数量:500 ip2:
w数量:1*1*500*10=5000
b数量:10

把上面各层的参数相加得到:

(500 + 20) + (25000 + 50) + (400000 + 500) + (5000 + 10) = 431080

即总共有431080个w和b参数,因为每一个参数以float类型(4 Bytes)存储,所以存储这么多参数需要的空间为:

431080 * 4 = 1724320 (Byte) 约等于 1.64 MB 。

计算出来的结果和训练得到的caffemodel的大小差不多(稍微小了一点)。

到这里,我们就基本上解释了怎么估算一个caffemodel的大小了。上面还卖了个关子,提到w和b参数除了和网络结构有关以外,还和网络的输入有关。

以上面的mnist例子来说,假如输入不是28*28而是N*N(这里N是比28大的一个整数),那么假设pool2的输出表示为n*n(在网络结构不变的情况下,这里的n比4大),所以也就导致了ip1全连接层的w参数数量增多(ip1的w参数数量为 n*n*50*500),从而导致了caffemodel大小的变化。

从上面的计算大家也可以看到,一个网络的大小很大程度上取决于全连接层,第一个全连接层的连接数(参数数量)一般是最多的。后来《Network in Network》把全连接层换成average pooling,目的就是为了减小参数的数量。有兴趣的朋友可以搜一搜这篇论文看看。

最新文章

  1. 基站查询接口,基站查询API
  2. jQuery Mobile 表单基础
  3. 实现在Android 进程和线程
  4. 线段树基础模板&&扫描线
  5. Jquery 中的$(this) 和javascript中的this
  6. 封装对NPOIExcel的操作,方便的设置导出Excel的样式
  7. The 6th Zhejiang Provincial Collegiate Programming Contest->Problem I:A Stack or A Queue?
  8. 自己动手编写Maven的插件
  9. IDEA集成SSH Session
  10. Ubuntu 14.04服务器配置 (1) 安装和配置
  11. Google advertiser api开发概述——最佳做法&建议
  12. Android,XML解析
  13. Java线程池关闭1-shutdown和isTerminated<转>
  14. 移动端前端框架UI库
  15. 一款基于jquery带百分比的响应式进度加载条
  16. iOS使用位置和方向服务(来自苹果apple官方)
  17. SharePoint问题杂集——要创建计时器作业,必须运行SVC
  18. Python—字典(当索引不好用时)
  19. LintCode-12.带最小值操作的栈
  20. jupyter常用快捷键

热门文章

  1. win7 下注册dll文件失败
  2. App Distribution Guide (一)
  3. java的几个特性
  4. [置顶] 使用kube-proxy让外部网络访问K8S service的ClusterIP
  5. linux的dd命令详解
  6. 淘宝开源项目之Tsar
  7. ISP基础一
  8. selenium执行报错:Process refused to die after 10 seconds, and couldn't taskkill it
  9. 熊猫猪新系统測试之四:Ubuntu 14.04
  10. python——super()