鹅厂数据分析面经
1. 简单自我介绍,简单问问简历
2. 因为简历提到之前实习的时候有用PSI和IV做变量选择,被问公式是什么,阈值是多少?(总结:要对简历的每一个字都要很熟悉!!)
3. 你是学统计学的,你还记得统计推断都学了啥嘛?
——点估计、区间估计、假设检验、完备统计量那些,还有ANOVA(坑点!!问到统计方法,回答了ANOVA估计就会被问吧哈哈哈!!然后就被问了ANOVA是什么,只记得one-way的就只讲了这个,然后让举了个例子)
4. 你常用的假设检验?
——(只记得)列联表的卡方检验
5. 对比xgb和lgbm算法的原理的不同和优缺点(这个问题挺多人被问的)
6. 你python常用什么包?(pandas,其他就numpy啊matplotlib、seaborn啊sklearn啊,爬虫那些,还有当时没想起来现在想起来的:re、random、datetime、libsvm等等,太多了,就是不知道面试官想听哪个hh)
7. 你常用的函数?
8. Pandas有什么数据结构?(一时被问懵了,面试官说dataframe,我说哦那还有pd.series……)
9. 逻辑回归讲一下?
10. 好像还有一些些算法相关的,但是时间太久我忘了……对不起……反正难不过xgb和lgbm的对比,这个问题太经常问了……
11. 你在学校成绩如何?(开始自卑)
CDG三面(交叉面)
1. 基本没怎么自我介绍……
2. Bias和variance解释
3. 什么情况会过拟合/欠拟合,分情况阐述如何解决
4. Rf和xgb的区别(面试官的意图应该是bagging和boosting的区别)
5. 什么是auc?
6. 你是如何做特征组合&特征选择or降维,除了lasso或者看变量重要性还有其他方法么?(计算方差 相关性等等)除了机器学习的那些还有别的方法么?
7. 集成学习都有哪些?
8. 知道embedding么?知道ae么?
9. 给你一个facebook点赞记录的数据集(非常大,上亿行),和其中一些facebook用户的信息(包括性别、年龄、三列由哈佛大学某研究得到的性别测试的得分,得分在0-1之间,是连续变量),但这部分人的信息只有几万条。问可以用这些数据做什么,怎么做?
10. 反问
HR面
1. 自我介绍
2. 讲一下在学校的经历(竞赛or社团都可以)
3. 讲一下以往的团队合作的经历
4. 在团队有冲突的时候怎么做(hr小姐姐建议保持自己的看法,不要轻易妥协)
5. 有压力大的时候么?压力大怎么做?
6. 你哪里人?可以实习多久?
总结:
1. 经常被问的机器学习算法:rf、gbdt、xgb、lgbm、lr(svm反而还好,没有遇到)
2. 场景题:先问清楚具体数据什么样,确认面试官意图,考虑清楚用什么维度(用户维度or 维度),对应什么目标变量。
3. 别给自己挖坑!!自己简历上的坑在自我介绍的时候就填上!!别等面试官问了再解释!!