ReLU上的花样 CNN出现以来,感觉在各个地方,即便是非常小的地方都有点可以挖掘.比如ReLU. ReLU的有效性体现在两个方面: 克服梯度消失的问题 加快训练速度 而这两个方面是相辅相成的,因为克服了梯度消失问题,所以训练才会快. ReLU的起源,在这片博文里,对ReLU的起源的介绍已经很详细了,包括如何从生物神经衍生出来,如何与稀疏性进行关联等等. 其中有一段特别精彩的话我引用在下面: 几十年的机器学习发展中,我们形成了这样一个概念:非线性激活函数要比线性激活函数更加先进. 尤其是在布满S