算法岗常见面试题(二):正则化

学习连接:理解L1, L2正则化的正确姿势

归一化的主要目的是降低模型复杂度,减少过拟合。

最基本的正则化方法是在原目标(代价)函数中添加惩罚项,对复杂度高的模型进行“惩罚”。数学表达式为:

\hat J(w;X,y)=J(w;X,y)+\alpha \Omega(w)

其中J()目标函数\Omega(w)为惩罚项,可以理解为模型“规模”的某种度量;参数\alpha控制正则化的强度

常用的正则化函数

L1范数,L1正则化(LASSO):\Omega(w)=||w||_1=\sum_{i=1}^n|w_i|

L2范数,L2正则化(Ridge/岭回归(华为二面)):\Omega(w)=||w||_2=\sum_{i=1}^nw_i^2

如何实现降低复杂度

对于目标函数,第一部分权重尽力拟合训练数据,第二部分令权重尽可能小,当无穷大的时候,权重会接近于0。添加了惩罚项的损失函数,综合考虑的模型的拟合能力和复杂程度,从而找到合适的。

L1正则化比L2正则化更容易得到稀疏解的原因

从解空间的形状来看,L1范数是以原点为中心的菱形,而L2范数是以原点为中心的目标函数的解,是原目标函数和正则化项的切点。对于L1范数而言,随着正则化项的权重逐渐增大,它与原目标函数的交点会不断接近坐标轴,最终落在坐标轴上,这时候就会有权重w为0的情况;而对于L2范数而言,无论正则化项的权重如何改变,它和目标函数的交点也都会落在象限上。因此,L1正则化比L2正则化更容易得到稀疏解的原因。

L1、L2正则化的适用场景

L1使模型中尽可能多的参数值为0,因此适用于:模型剪枝,模型压缩,特征选择。是一种从改变模型结构的角度(减少模型参数的数量)解决过拟合的方式。

L2使模型中的所有参数值尽可能小,使得模型尽量不依赖于某几个特殊的特征,而是使每个特征都能得到尽量均衡的权重,因此适合解决普通的过拟合问题,即从参数分布(使分布尽可能的均匀)的角度解决过拟合问题。

l1和l2正则化的区别是什么,是什么原因导致的

  1. L1正则化对应L1范式(Lasso); L2正则化对应L2范式(岭回归)
  2. L1正则化得到稀疏矩阵,自动进行特征选择;L2正则化让参数尽可能小,防止过拟合;
  3. L1正则化趋于选择少量特征,其他特征都是0;L2正则化趋于选择更多的特征,这些特征都会接近与0

从贝叶斯角度解释正则化项(陌陌笔试)

聊一聊机器学习的MLE和MAP:最大似然估计和最大后验估计 - 知乎 (zhihu.com)

概述:交叉熵损失函数本质上是最大似然估计MLE,正则化等价于MLE+先验概率。所以,从贝叶斯的角度看,损失函数+正则化就是贝叶斯最大后验估计MAP。

#算法面经#
全部评论
可以
1 回复 分享
发布于 2023-04-13 00:08 香港
太赞了~喜欢
1 回复 分享
发布于 2023-03-23 13:15 湖北
请问一下目标函数这样的同心圆是基于什么假设?
点赞 回复 分享
发布于 2023-06-27 16:30 浙江

相关推荐

不愿透露姓名的神秘牛友
03-06 16:37
已编辑
浙江泰隆商业银行 Java工程师 17.0k*14.0, 总包:25+1 硕士
点赞 评论 收藏
分享
评论
10
98
分享

创作者周榜

更多
牛客网
牛客企业服务