参考资料：
吴恩达教授机器学习课程
 机器学习课程中文笔记

Week2

一. 多变量线性回归(Linear Regression with Multiple Variables)

多变量就时当一个example里有n个特征的情况，将n个特征统一到一个matrix里去看作整体。
多变量线性回归还是先出cost function，然后用梯度下降算法/正规方程法使cost function最小化

多变量线性回归中有很多特征，选择合适的特征很重要，下面是常见的可用特征：

面对多维特征问题的时候，在对代价函数使用梯度下降算法前要对特征进行一些处理。保证这些特征都具有相近的尺度，这将帮助梯度下降算法更快地收敛。

将training set中的同一特征值进行scaling处理，用下面公式：(x-平均值)/(最大值-最小值)范围可以将所有的这一特征值控制在-0.5<=x<=0.5,方便进行梯度下降

梯度下降算法的每次迭代受到学习率的影响，如果学习率过小，则达到收敛所需的迭代次数会非常高；如果学习率过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试些学习率：0.01，0.03，0.1，0.3，1，3

将cost function最小化除了用梯度下降还可以用正规方程。正规方程法不需要学习率，不需要特征缩放，可以直接一次计算出：

只要特征变量的数目并不大，标准方程是一个很好的计算参数的替代方法。具体地说，只要特征变量数量小于一万，我通常使用标准方程法，而不使用梯度下降法。

注意：有些时候对于某些模型不能使用正规方程而只能用梯度下降。