吴恩达老师机器学习课程chapter11——大规模机器学习

本文是非计算机专业新手的自学笔记，高手勿喷。

本文仅作速查备忘之用，对应吴恩达(AndrewNg)老师的机器学期课程第十七章。

这是这次整理笔记的最后一次整理。

吴恩达老师的课程现在看来大部分很通俗易懂，但是代价就是缺少许多数学证明。

许多部分用来学习了解入门就比较合适，但是想要深究就不得不离开严格证明了，这就是这门课的局限了。

这门课后面还有一些没有整理，因为那部分更多是简单介绍，更缺少深入分析，就不整理了。

在进行大规模机器学习之前，应该先通过学习曲线判断是否需要增加更多的样本。

随机梯度下降(Stochastic gradient descent)

批量梯度下降法(Batch gradient descent)：

“批量”是指每一次迭代都要考虑所有数据。

随机梯度下降法则避免了大规模累加操作，节省了时间。每一次迭代中只针对一个样本，每次都会改进一点。其优化轨迹并不总是指向最优解，会曲折迂回的向最优解收敛。

与随机梯度法不一样的是，随机梯度法每次迭代只针对一个样本，而小批量梯度下降法每次针对一小组样本。

针对梯度下降法，在实际工作中，可以通过绘图的方法查看是否收敛。

在随机梯度下降法中，举例来说，可以在每1000次迭代之后，计算前1000次的代价函数值，依次绘出函数图像，依次判断学习率大小是否合适。

可也以让学习率随着迭代增加而减少，保证收敛效果。