第 7 章正则化

正则化用于缓解过拟合。它通过惩罚过大的参数，让模型不要为了完全贴合训练集而变得过于复杂。

7.1 过拟合的问题

模型可能出现三种情况：

在线性回归中，如果使用过高阶的多项式，曲线可能穿过几乎所有训练点，但对新样本预测很差。

解决过拟合的常见办法：

正则化的想法是：在原来的代价函数后面加上参数惩罚项。

线性回归正则化代价函数：

J (θ) = \frac{1}{2 m} [\sum_{i = 1}^{m} {(h_{θ} (x^{(i)}) - y^{(i)})}^{2} + λ \sum_{j = 1}^{n} θ_{j}^{2}]

注意：通常不惩罚 theta_0。

lambda 是正则化参数：

正则化线性回归中，theta_0 和其他参数的更新略有不同。

theta_0 不加正则化：

θ_{0} \leftarrow θ_{0} - α \frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{0}^{(i)}

对于 j >= 1：

θ_{j} \leftarrow θ_{j} - α [\frac{1}{m} \sum_{i = 1}^{m} (h_{θ} (x^{(i)}) - y^{(i)}) x_{j}^{(i)} + \frac{λ}{m} θ_{j}]

逻辑回归也可以加入正则化。

正则化逻辑回归代价函数：

J (θ) = - \frac{1}{m} \sum_{i = 1}^{m} [y^{(i)} \log (h_{θ} (x^{(i)})) + (1 - y^{(i)}) \log (1 - h_{θ} (x^{(i)}))] + \frac{λ}{2 m} \sum_{j = 1}^{n} θ_{j}^{2}

同样不惩罚 theta_0。

对于 j >= 1，梯度更新中会额外多出正则化项：

\frac{λ}{m} θ_{j}