weight_decay防止过拟合的参数,使用方式:
样本越多,该值越小
模型参数越多,该值越大
一般建议值:
weight_decay: 0.0005
lr_mult, decay_mult
关于偏置与参数使用不同的学习率与权重衰减项:
偏置的学习率一般为参数的两倍
比如一个卷积,有偏置的话,其学习率应该是
param { lr_mult: } param { lr_mult: } 偏置设为2倍,能够加速收敛 对于偏置,其衰减项一般设置为0,还是对应上面的卷积:
param { lr_mult:
decay_mult: }
param { lr_mult:
decay_mult:}
批处理,批处理中需要加上3个0,即批处理的参数是根据上一批的数据进行滑动平均来更新,而不是根据梯度来更新:
param { lr_mult:
decay_mult:}
param { lr_mult:
decay_mult:}
param { lr_mult:
decay_mult:}
还有参数:use_global_stats
在训练时要设置为false,代表需要批处理的均值方差要参考全局信息来更新
在测试时,要为true,代表不使用自己均值方差和全局的均值方差来得到批处理的均值和方差,而是使用全局均值方差,即训练好的均值方差
另一个参数:moving_average_fraction
代表参考训练时均值方差更新的速度,默认是0.,参考值是0.~.999之间
最后一个参数eps:
防止批处理时除以0,默认值是1e-
caffe 下与loss相关的一些说明:
train loss 不断下降,test loss 不断下降,说明网络正在学习
train loss 不断下降,test loss 趋于不变,说明网络过拟合
train loss 趋于不变,test loss 趋于不变,说明学习遇到瓶颈,需要减小学习率或者批处理大小
train loss 趋于不变,test loss 不断下降,说明数据集100%有问题
train loss 不断上升,test loss 不断上升(最终变为NaN),可能是网络结构设计不当,训练超参数设置不当,程序bug等某个问题引起
train loss 不断上下跳动,可能引起的原因:学习率过大,或者批处理大小太小

参考:http://blog.csdn.net/LIYUAN123ZHOUHUI/article/details/74453980

如果想让某些层以上的参数不更新,可以设置某个conv层中:propagate_down : ;但是本层会更新权重,
比如说data->conv2-conv2->conv3->conv4, 在conv4层设置参数propagate_down : ,则只权重只更新到conv4, conv3, conv2, conv1将都不会更新了,这个常常在finetune中有用到。
具体参考:https://blog.csdn.net/wangkun1340378/article/details/78422926

持续更新中..........

最新文章

  1. LINQ 联查多表数据并封装到ViewModel的实现
  2. 学习游戏渲染(Shader)的用处
  3. [转载]DBA的特质第二部分:性格
  4. Office2007在安装、卸载过程中出错的解决办法
  5. Python自动化 【第三篇】:Python基础-集合、文件操作、字符编码与转码、函数
  6. mysqldump: Got error: 1556: You can't use locks with log tables. when using LOCK TABLES
  7. 查询--游标 limit skip sort
  8. 每天一个linux命令31)--chown命令
  9. 教育,创新,提升:Indiegogo和Kickstarter上受中国用户支持的10个众筹项目
  10. Shell命令-文件及内容处理之wc,tr
  11. 处理:“ORA-00257: archiver error. Connect internal only, until freed”的错误问题
  12. BZOJ.3218.a + b Problem(最小割ISAP 可持久化线段树优化建图)
  13. 模仿以太坊 ERC20 规范的 Hyperledger Fabric 实现 Token 通证
  14. JVM活学活用——类加载机制
  15. PHP 小技巧之如何避免参数多次传递?
  16. AVAudioFoundation(1):使用 AVAsset
  17. django中models的filter过滤方法
  18. python实现多播数据的发送和接收
  19. Metrics+ElasticSearch+grafana
  20. springboot 整合jdbcTemplate

热门文章

  1. ES6 WeakMap Map 区别
  2. 图解Java机制
  3. 深入理解linux系统的目录结构
  4. sql 语句中 id&lt ;SELECT * FROM t_blog WHERE id<#{id} ORDER BY id DESC LIMIT 1
  5. LNMP架构三
  6. PadLeft函数
  7. Mac / Windows 下的 FTP 工具filezilla
  8. C#通过webbrowser控件与javascript交互
  9. SQL Like中的逗号分隔符
  10. 基于AXI VDMA的图像采集系统