【CS231N】2、多类SVM

一、疑问

SVM的损失函数在某个数据点上的计算：

$L_i=\displaystyle\sum_{j\not =y_i}[max(0,w^T_jx_i-w^T_{y_i}x_i+\Delta)]$

对函数进行微分，比如对 $w_{y_i}$ 进行微分得到：

$\displaystyle\nabla_{w_{y_i}}L_i=-(\sum_{j\not=y_i}1(w^T_jx_i-w^T_{y_i}x_i+\Delta>0))x_i$

在代码实现的时候，只需要计算没有满足边界值的分类的数量（因此对损失函数产生了贡献），然后乘以 $x_i$ 就是梯度了。注意，这个梯度只是对应正确分类的W的行向量的梯度，那些 $j\not =y_i$ 行的梯度是：

$\displaystyle\nabla_{w_j}L_i=1(w^T_jx_i-w^T_{y_i}x_i+\Delta>0)x_i$

数值梯度和解析梯度的值有时候在某个维度会相差较多。这是因为数值梯度的计算采用的是用前后2个很小的随机尺度（比如0.00001）进行计算，当loss不可导的时候，两者会出现差异。**

超参数delta和$\lambda$一起控制损失函数中数据损失和正则化损失之间的权衡。但是对于通过缩小或扩大权重矩阵的值，改变不同分类值之间的差异，因此，在一定程序上改变delta是没有意义的。真正的权衡是通过正则化强度来控制权重能够变大到何种程度。

损失函数的最优化的始终在非限制初始形式下进行。很多这些损失函数从技术上来说是不可微的（比如当 $x=y$ 时， $max(x,y)$ 函数就不可微分），但是在实际操作中并不存在问题，因为通常可以使用次梯度。