机器学习与数据挖掘都有哪些面试真题?
机器学习与数据挖掘
26.L1、L2的原理?两者区别?(苏宁)
参考答案
原理:
L1正则是基于L1范数和项,即参数的绝对值和参数的积项;L2正则是基于L2范数,即在目标函数后面加上参数的平方和与参数的积项。
区别:
1.鲁棒性:L1对异常点不敏感,L2对异常点有放大效果。
2.稳定性:对于新数据的调整,L1变动很大,L2整体变动不大。
答案解析
数据分析只需要简单知道原理和区别就行,公式推导不需要,面试过程中也不会出现。
27.boosting 和 bagging的区别(快手)
参考答案
boosting:训练基分类器时采用串行的方法,各个基分类器有依赖,每一层训练时,对前一层分错的样本给与更高的权重,测试时,根据各层分类器的结果的加权得到最终结果。
bagging:集体决策,分而治之。基分类器最好是本身,对样本分布较为敏感。
28.逻辑回归和xgboost有什么区别(字节跳动、美团)
参考答案
逻辑回归:假设数据服从伯努利分布,通过极大似然函数的方法,运用梯度下降来求解参数,来达到数据二分类的目的。
xgboost:通过boosting的思想,由一堆cart树,将每棵树的预测值加在一起就得到了最后的预测值。
1.从模型的角度上来说,两者本质都是监督学习,但是LR是线性模型,XGB是非线性模型。
2.从策略的角度上来说,LR本质是分类器算法,XGB本质是回归算法。
3.从使用的角度上来说,XGB的Loss比较复杂,参数比较多,但是可以支持自定义Loss,会自动求一阶和二阶导数,也就是说其实是一个残差学习框架,应用于适用感知器准则的任何框架。
4.从特征的角度上来说,LR不具备特征筛选的能力,它假设特征之间是相互独立的,只具有线性分界面。
答案解析
说明定义+从2-3个角度上说一下两者的区别。
29.有关机器学习random forest 和xgboost的区别(同盾科技)
参考答案
RF:采用Bootstrap的随机有放回的抽样,抽样出N份数据集,训练出N个决策树。然后根据N个决策树输出的结果决定最终结果。xgboost:通过boosting的思想,由一堆cart树,将每棵树的预测值加在一起就得到了最后的预测值。
RF属于集成学习Bagging,而XGB属于集成学习Boosting。
RF是通过减少模型方差提高性能;XGB是通过减少模型偏差提高性能。
3.对于最终的输出结果而言,RF采用多数投票等;而XGB则是将所有结果累加起来,或者加权累加起来。
30.介绍自己学习了JD中提到的XGBOOST算法(美团)
参考答案
1.xgboost中把损失函数的二阶泰勒展开的差值作为学习目标,利用牛顿法进行优化,来逼近损失函数的最小值。
2.并且利用L2正则来防止过拟合。
3.在缺失值的处理上,通过枚举所有缺失值在当前节点是进入左子树,还是进入右子树更优来决定一个处理缺失值默认的方向。
答案解析
从xgb的几个重要特征或者优点来介绍。
#学习路径#