Safran I, Shamir O. Spurious Local Minima are Common in Two-Layer ReLU Neural Networks[J]. arXiv: Learning, 2017.

@article{safran2017spurious,

title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},

author={Safran, Itay and Shamir, Ohad},

journal={arXiv: Learning},

year={2017}}

文章的论证部分让人头疼,仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:

\[\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+,
\]

其中\(\mathbf{v}_i\)是给定的, 而\(\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\). 而这篇文章考虑的是:



即, 这个损失函数是否具有局部最优解.

主要内容

定理1



注意, \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\)是正交的, 且\(n=k\). 这个时候,损失函数是有局部最优解的, 不过在后面作者提到, 如果\(n>k\), 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).

推论1

引理1 引理2

这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).

最新文章

  1. python3使用pyinstaller打包apscheduler出的错
  2. CSS3绘制404页面
  3. Python爬网获取全国各地律师电话号
  4. 几种通过JDBC操作数据库的方法,以及返回数据的处理
  5. 关于敏捷开发方法(Agile Software Development)的阅读笔记
  6. pycharm 单元测试失败 not found while handling absolute import
  7. System.IO中的File、FileInfo、Directory与DirectoryInfo类(实例讲解)
  8. CheckBoxList1复选框
  9. ios获取一个文件夹下的文件(夹)列表
  10. Unity3D脚本中文系列教程(五)
  11. 内核源码分析之tasklet(基于3.16-rc4)
  12. 24小时学通Linux内核之进程
  13. PHP输入流php://input介绍
  14. RIAidea – Focus on Flash/Flex/AIR » About Me
  15. [C++]Standing Ovation——Google Code Jam 2015 Qualification Round
  16. Google启封后依然不能用
  17. js 小数计算为啥和想象中不一样!
  18. 内置对象Cookie和Session有何不同【常见面试题】
  19. 从零开始一起学习SLAM | 掌握g2o边的代码套路
  20. 如何用ESP8266实现网页配置(web)

热门文章

  1. Mybatis相关知识点(二)
  2. 【STM32】晶振,主时钟,外设频率介绍
  3. [学习总结]4、Android的ViewGroup中事件的传递机制(一)
  4. [学习总结]2、android中的VelocityTracker(获得速率用的类)
  5. docker创建tomcat容器无法正常访问
  6. js实现递归菜单无限层
  7. 【Linux】【Commands】文本查看类
  8. 【Java 设计】如何优雅避免空指针调用
  9. Java RestTemplate传递参数
  10. python使用gitlab-api