Spurious Local Minima are Common in Two-Layer ReLU Neural Networks
2024-08-30 13:04:14
@article{safran2017spurious,
title={Spurious Local Minima are Common in Two-Layer ReLU Neural Networks},
author={Safran, Itay and Shamir, Ohad},
journal={arXiv: Learning},
year={2017}}
引
文章的论证部分让人头疼,仅在这里介绍一下主要内容. 这篇文章关注的是单个隐层, 激活函数为ReLU的神经网络, 且对输入数据有特殊的限制, 数据为:
\[\sum_{i=1}^k [\mathbf{v}_i^T\mathbf{x}]_+,
\]
\]
其中\(\mathbf{v}_i\)是给定的, 而\(\mathbf{x} \sim \mathcal{N}(\mathbf{0}, \mathbf{I})\). 而这篇文章考虑的是:
即, 这个损失函数是否具有局部最优解.
主要内容
定理1
注意, \(\mathbf{v}_1, \mathbf{v}_2, \ldots, \mathbf{v}_k\)是正交的, 且\(n=k\). 这个时候,损失函数是有局部最优解的, 不过在后面作者提到, 如果\(n>k\), 即overparameter的情况, 这个情况是大大优化的, 甚至出现没有局部最优解(不过是通过实验说明的).
推论1
引理1 引理2
这部分有些符号没有给出, 如果感兴趣回看论文, 这俩个引理是用来说明, 如何在实验中, 通过一些指标来判断是否收敛到某个极值点了(当然, 这需要特别的计算机制来避免舍入误差带来的影响, 作者似乎是通过Matlab里的一个包实现的).
最新文章
- python3使用pyinstaller打包apscheduler出的错
- CSS3绘制404页面
- Python爬网获取全国各地律师电话号
- 几种通过JDBC操作数据库的方法,以及返回数据的处理
- 关于敏捷开发方法(Agile Software Development)的阅读笔记
- pycharm 单元测试失败 not found while handling absolute import
- System.IO中的File、FileInfo、Directory与DirectoryInfo类(实例讲解)
- CheckBoxList1复选框
- ios获取一个文件夹下的文件(夹)列表
- Unity3D脚本中文系列教程(五)
- 内核源码分析之tasklet(基于3.16-rc4)
- 24小时学通Linux内核之进程
- PHP输入流php://input介绍
- RIAidea – Focus on Flash/Flex/AIR » About Me
- [C++]Standing Ovation——Google Code Jam 2015 Qualification Round
- Google启封后依然不能用
- js 小数计算为啥和想象中不一样!
- 内置对象Cookie和Session有何不同【常见面试题】
- 从零开始一起学习SLAM | 掌握g2o边的代码套路
- 如何用ESP8266实现网页配置(web)