梯度下降法 在机器学习任务中,需要最小化损失函数\(L(\theta)\),其中\(\theta\)是要求解的模型参数.梯度下降法是一种迭代方法,用到损失函数的一阶泰勒展开.选取初值\(\theta ^0\),不断迭代更新\(\theta\)的值,进行损失函数的极小化. 迭代公式: \(\theta^t=\theta^{t-1}+\Delta\theta\) \(L(\theta^t)\)在\(\theta^{t-1}\)处进行一阶泰勒展开,有: \begin{aligned} L(\theta