1 共线性与L2正则化

L2正则化，可以使系数w的绝对值变小，使对应的特征项对结果的影响变小。如果数据没有问题，多元线性回归和多项式回归中，才有使用正则化的必要，一元线性回归不需要L2正则化。

在岭回归中，经常能看到共线性（collinearity）这个词，其实就是特征之间线性相关。

X_{mn}=[x_1, x_2, ... , x_n]

这里假如m表示样本数量，n表示特征数，那么

x_1, x_2, ... , x_n

均为列向量，若

x_1, x_2, ... , x_n

线性相关，则说明特征之间存在共线性。

因此当特征之间存在共线性时，X不可逆，

X^T X

也不可逆，那么正规方程

w=(X^{T}X)^{-1}X^{T}y

就不能使用，L2正则化，就是为了解决这个问题而诞生的，即令

w=(X^TX+λ*I)^{-1}X^Ty

I是单位矩阵，λ是超参数

在线性回归的损失函数中，添加一个L2正则化项，即为岭回归的损失函数，为

对J2(θ)求导

其中，J1(θ)是没加L2正则化项时的损失函数，即

当

w=(X^TX+λ*I)^{-1}X^Ty

时，

具体过程详见这篇知乎文章：https://zhuanlan.zhihu.com/p/32488420

2 Lasso回归

岭回归是在构建损失函数的时候，在普通线性回归损失函数的基础上加上L2正则化项，如果加的不是L2正则化项，而是L1正则化，那么就是Lasso回归。

关于L1正则化，详见这篇知乎文章：https://zhuanlan.zhihu.com/p/38309692

Lasso回归的目标函数为：

3 多任务Lasso回归

先说一下何为多任务，如果要用同一条数据做多个预测，比如用一个人的身高、体重预测他的体脂率、血压、血糖等信息，这就是多任务，说白了，就是目标值不止一个。

而多任务Lasso回归，其实就是对每个目标值都用Lasso回归进行预测。

多任务Lasso回归的目标函数：

这里Fro表示弗伦尼乌斯范数

正则化项为L1和L2的混合范数

4 弹性网络

弹性网络的正则化项综合了L1和L2范数，其目标函数为

5 随机梯度下降

随机梯度下降，在每次迭代参数时，都只使用一个样本，而非遍历所有训练样本，这样与普通梯度下降比起来，计算量就会小很多，从而使得参数快速接近局部最优解。但随机梯度下降仅以当前样本点进行梯度更新，通常无法达到真正局部最优解，只能比较接近，属于用精度换效率。

sklearn.linear_model.SGDRegressor()

在这里插入图片描述

可以通过参数，指定正则化方法（L1，L2，elasticnet等），学习率是常数还是衰减（如果要指定学习率是多少，那么learning_rate=‘constant’ 而非具体的值，eta0才是指定具体的值），是否早停等。关于参数的详细说明，请查阅scikit-learn官方文档（这个还是去读源文档吧，一个个介绍参数真的太花时间，但这个方法中不少参数确实有必要看）。

关于在函数中出现参数 * ，可以阅读这个问题下的回答：https://www.zhihu.com/question/287097169