数据挖掘面经
投的一家朋友在的外企数据挖掘仅记录下面经
无心插柳offer+1,(但还是想去大厂做数分 许愿帖)
数据挖掘考察问题
1 项目经历:问卷数据处理逻辑
- 多数据源数据匹配、数据填充
- 数据清理:答题时间短、空题过多、逻辑倒挂、态度消极
- 去重:口径 同人/天/店仅保留最晚的一笔交易
2 建模经历:
用了什么算法:决策树、随机森林
怎么判断、处理过拟合:比较训练集score》测试集score;减少n_estimator、剪枝
怎么划分数据集和测试集:train_test_split or cross_val_score
数据缺失怎么处理(数据量很大情况):1 业务角度判断是否有用 2 判断数值型 or 非数值型 3 填补(略)
决策树中如何判断单指标对因变量影响:调用参数importance,看决策树特征因子大小
如何判断单指标对因变量是否显著:想考我特征选择,当时没答出来
复盘:从方差、相关性、F检验等角度选择方差更大、相关性显著、卡方检验显著的
3 反问
公司业务:确认过眼神,不是我感兴趣的坑
但面试体验太棒了,面试官很温柔,提问也清晰,记录下今日份开心
#数据挖掘##面经#