《机器学习高频面试题详解》1.3:L1和L2正则化
前言
大家好,我是鬼仔,今天带来《机器学习高频面试题详解》专栏的第1.3节:L1和L2正则化。这是鬼仔第一次开设专栏,每篇文章鬼仔都会用心认真编写,希望能将每个知识点讲透、讲深,帮助同学们系统性地学习和掌握机器学习中的基础知识,希望大家能多多支持鬼仔的专栏~
目前这篇是试读,后续的文章需要订阅才能查看哦(每周一更/两更),专栏预计更新30篇文章(只增不减),具体内容可以看专栏介绍,大家的支持是鬼仔更新的动力!
一、L1和L2正则化概述
使用机器学习算法解决实际问题时,我们往往会先收集一批数据集,根据贝叶斯学派的说法,仅仅使用这些数据是不够的,还需要加入先验知识。我们通常要用L1或L2范数对损失函数做正则化,从而限制权值大小,减少过拟合风险。在损失函数中使用了L1正则项,那么其实质就是加入了拉普拉斯先验分布,即认为权值是符合拉普拉斯分布的;如果使用L2正则项,那么就是加入了高斯先验分布,即认为权值是符合高斯分布的。一般由于推导和计算方便,会对分布函数取对数,然后再去优化。最终的结果是,由于你的模型参数考虑了数据先验,学习出来的规则就更加接近实际。
利用梯度下降优化目标函数时,L1正则化常常产生稀疏的权值, 而L2正则化则产生平滑的权值。在面试中,面试官常常会考察候选人对正则化的理解,下面鬼仔将分别从数值和几何两个角度对L1和L2正则化进行阐述
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
专栏作者曾在校招期间拿到包括字节、微信和华为等多家大厂的SSP offer,该专栏主要是为了帮助同学们系统性地学习和掌握机器学习中的基础知识。专栏详细地整理了各大厂的算法岗面经,力争深入浅出地讲解重要知识点,适合人群为准备校招或者实习,且目标岗位为算法岗、数据挖掘岗或者数据分析岗的同学。