数据分析/数据建模面经
数据相关:
项目中不平衡数据如何处理
项目中数据量的大小
项目中数据的特征介绍
什么是hard样本什么是easy样本
机器学习相关:
Boosting 和 bagging的区别
决策树的分裂的计算(ID3, C4.5,CART)
Adaboost 和 GBDT 的区别
Adaboost 和 GBDT的损失函数
Xgboost 和 GBDT的区别
Boosting 和 Random Forest Tree 的区别
梯度下降和随机梯度下降的区别
逻辑回归,svm和树模型的区别
项目中为什么选择GBDT而不是adaboost
采用什么作为模型好坏的评判标准(accuracy, f1-macro)
降维的方法
树模型如何调参
如何检测模型是否过拟合
如何减少过拟合现象的产生
深度学习相关:
Attention 和 self attention的区别
介绍一下Transformer
Bert提升了transformer的哪些东西
BERT比RNN好在哪里
RNN, LSTM, BERT的优缺点
梯度消失和梯度爆炸产生的原因
如何解决梯度消失和梯度爆炸
介绍一下推荐系统的算法(协同过滤,基于内容的推荐)
插一句,杭州除了大厂以外,中小厂很少很少有做数据分析的。 大厂数分没个985本硕或者同级别海外院校基本没戏,中小厂数据岗位吃经验基本不招应届生。建议,想找数分的不要来杭州!
#春招##面经##数据分析师#