正则化
正则化通常只对权重w做正则惩罚,而不对偏置b做正则惩罚,原因如下
- 每个偏置只控制一个单变量,即使不正则化也不会导致很大的方差
- 正则化偏置参数很可能导致欠拟合
范数:
0范数(L0范数)-向量中非0元素的个数。
1范数(L1范数)-向量中各个元素绝对值之和。
2范数(L2范数)-向量的模长。
L1正则化
在目标函数中增加一个正则项 a * 权重w的一范数, a为。
也称为Lasso回归, 拉格朗日正则
- 相对于L2正则化,L1正则化会产生更稀疏的解,广泛应用于特征选择机制。
- L1正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;
L2正则化
在目标函数中增加一个正则项 a/2 * 权重w的二范数的平方, a为
也称超参为权重衰减、岭回归、Ridge回归
- L2正则化在不抛弃任何一个特征的情况下,缩小了回归系数,使模型相对而言比较稳定
- L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。
在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则
高斯分布和拉普拉斯分布可以参考这篇博客链接