正则化

正则化通常只对权重w做正则惩罚,而不对偏置b做正则惩罚,原因如下

  • 每个偏置只控制一个单变量,即使不正则化也不会导致很大的方差
  • 正则化偏置参数很可能导致欠拟合

范数:

0范数(L0范数)-向量中非0元素的个数。

1范数(L1范数)-向量中各个元素绝对值之和。

2范数(L2范数)-向量的模长。

L1正则化

在目标函数中增加一个正则项 a * 权重w的一范数, a为。

也称为Lasso回归, 拉格朗日正则

  • 相对于L2正则化,L1正则化会产生更稀疏的解,广泛应用于特征选择机制。
  • L1正则假设参数的先验分布是Laplace分布,可以保证模型的稀疏性,也就是某些参数等于0;

L2正则化

在目标函数中增加一个正则项 a/2 * 权重w的二范数的平方, a为

也称超参为权重衰减、岭回归、Ridge回归

  • L2正则化在不抛弃任何一个特征的情况下,缩小了回归系数,使模型相对而言比较稳定
  • L2正则假设参数的先验分布是Gaussian分布,可以保证模型的稳定性,也就是参数的值不会太大或太小。

在实际使用中,如果特征是高维稀疏的,则使用L1正则;如果特征是低维稠密的,则使用L2正则

高斯分布和拉普拉斯分布可以参考这篇博客链接

全部评论

相关推荐

10-14 10:56
已编辑
长沙学院 嵌入式软件开发
痴心的00后拿到了ssp:hr面挂了,无所谓了反正不去😃
点赞 评论 收藏
分享
评论
1
1
分享
牛客网
牛客企业服务