机器学习与数据挖掘高频面试题及答案
机器学习与数据挖掘-3
11.模型过拟合怎么处理(百度)
参考答案
1.获取更多数据,扩大数据量。
2.降低模型复杂度。
3.添加正则项。
4.改为集成学习。
12.介绍一下模型融合(百度)
参考答案
Bagging就是采用有放回的方式进行抽样,用抽样的样本建立子模型,对子模型进行训练,这个过程重复多次,最后进行融合。例如随机森林。
13.文本匹配算法(中电十所)
参考答案
传统的文本匹配算法Jaccard:两句子分词后词语的交集中词语数与并集中词语数之比。Simhash:先计算两句子的simhash二进制编码,然后使用海明距离计算,最后使用两句的最大simhash值归一化得相似度。
答案解析
选2-3个传统的文本匹配算法说一下原理即可
14.怎么防止过拟合(猿辅导)
参考答案
1.获取和使用更多的数据(数据集增强)——解决过拟合的根本性方法
让机器学习或深度学习模型泛化能力更好的办法就是使用更多的数据进行训练。但是,在实践中,我们拥有的数据量是有限的。解决这个问题的一种方法就是创建“假数据”并添加到训练集中——数据集增强。通过增加训练集的额外副本来增加训练集的大小,进而改进模型的泛化能力。
2. 采用合适的模型(控制模型的复杂度)
过拟合主要是有两个原因造成的:数据太少+模型太复杂。所以,我们可以通过使用合适复杂度的模型来防止过拟合问题。
3.降低特征的数量
对于一些特征工程而言,可以降低特征的数量——删除冗余特征,人工选择保留哪些特征。这种方法也可以解决过拟合问题
4.结合多种模型
简而言之,训练多个模型,以每个模型的平均输出作为结果。比如bagging和boosting,都能很好的解决过拟合。
答案解析
这道题主要考验过拟合的概念及如何防止过拟合,过拟合是指训练误差和测试误差之间的差距太大。就是说模型复杂度高于实际问题,模型在训练集上表现很好,但在测试集上却表现很差。
15.xgboost rf不同(快手)
参考答案
1、随机森林采用的bagging思想,而xgboost采用的boosting思想。
2、组成随机森林的树可以并行生成;而xgboost只能是串行生成。
3、对于最终的输出结果而言,随机森林采用多数投票等;而xgboost则是将所有结果累加起来,或者加权累加起来。
4、随机森林对异常值不敏感;xgboost对异常值非常敏感。
5、随机森林对训练集一视同仁;xgboost是基于权值的弱分类器的集成。
答案解析
这道题主要是考察xgboost和随机森林的区别,只要能大致描述几个本质上的区别即可
#学习路径#