面试遇到的数据挖掘问题
作者:Ivonne
链接:https://www.nowcoder.com/discuss/240139?type=post&order=time&pos=&page=2
来源:牛客网
面试准备参考资料
统计知识:
知乎ABtest和假设检验、流量分配
https://zhuanlan.zhihu.com/p/36384858
人人都是产品经理-吆喝科技-AB测(其他文章也可以看看)
http://www.woshipm.com/u/96204/page/3
业务类:
快手商业化提速
http://www.woshipm.com/it/1845819.html
快手与抖音功能对比:观看体验和评论功能
http://www.woshipm.com/evaluating/990676.html
产品日活DAU下降,我该如何着手分析?
http://www.woshipm.com/data-analysis/2467030.html
竞品分析报告:B站 VS A站 &抖音
http://www.woshipm.com/data-analysis/2589190.html
面经类:
数据分析岗面试笔试题汇总
https://www.nowcoder.com/discuss/100521?type=post&order=time&pos=&page=2
SQL手撕连续3天以上存在记录的数据,并求出对应金额总和
SQL手撕连续3天以上存在记录的数据,并求出对应金额总和
会用sql吗?hive和mysql的区别
PDD电话面试
作者:Lanny靓儿🎈
链接:https://www.nowcoder.com/discuss/228882?type=post&order=time&pos=&page=1
1.sql题:
已知一个订单表,有字段【订单号】,【日期】,【下单时间】,【下单金额】,【商品一级类目】,【商品二级类目】
请求最近7天内每一个一级类目下成交总额排名前3的二级类目。说一下思路:
1.先筛时间7天内,datediff(now(),日期)<=7
2.分组group by一级类目
3.sum开窗求每个二级类目销售总金额,sum(下单金额) over(partition by二级类目) as total_amt
4.再用rank(total_amt) over() rk rk in[1,2,3]或order by total_amt 结合Limit 3选前3。
2.自我介绍:介绍了自己做数据分析和挖掘的实习经历和感想。
3.分析和挖掘你更偏向哪个方向?
4.问项目细节
5.缺失值怎么处理?异常值怎么判断?
连续型我答用均值填充,又问离散型怎么弄,想了半天每想到,面试官提示介绍下极大似然估计法,最后说用众数去填充。
异常值看数据分布,均值、标准差,画图,箱线图判断等
6.模型的评价指标有哪些:
accuracy,precision,recall,F1,ROC,AUC
其他方面的评价:模型的稳定性,参数的显著性检验
7.过拟合是什么原因造成的,有哪几个方面?
自己答了模型层面上的,面试官一直问还有吗,最后他回答:从样本层面上有样本不均衡,维度过多,数据样本太少等问题。
开窗函数 SUM() OVER() 数据统计中一例使用
SQL手撕连续3天以上存在记录的数据,并求出对应金额总和
作者:靛蓝催化剂
链接:https://www.nowcoder.com/discuss/291085?type=post&order=time&pos=&page=1
来源:牛客网
VIVO:一面挂
泊松分布、二项分布、正态分布的区别。它们是什么类型的分布(离散or连续)?泊松分布的极限形式是什么?
对数据分析工作的理解。
Left join和full join的区别。索引的原理
怎么用Python做数据清洗工作
业务题:如何统计地铁1号线1天内的客流量。(在车上按照车厢进行统计)
- 一个SQL大题,两小问(10min做完),一个是计算不同观看时长区间的日均用户数量,一个是计算次日留存率
参考:SQL计算留存率 https://blog.csdn.net/MsSpark/article/details/86754301
作者:人丑就得多读书fjyy
链接:https://www.nowcoder.com/discuss/227633?type=all&order=time&pos=&page=1
来源:牛客网
笔试题一共60min,分选择题和3道问答题,简要说一下还记得的知识点:
1)商汤的数据工程师,比较偏考察概率论和建模等一些基本的数据统计方法的掌握:
如(数据挖掘150道考题:https://blog.csdn.net/u014365862/article/details/52526778)
1.k-nn最近邻方法在(样本较少但典型性好)的情况下效果较好
2.Presion和recall等分类算法的评价标准
3.不属于关联分析的关键要素是:满意度
4.SQL操作题:drop&delete
5.众数>中位数>平均数属于左偏分布
6.概率题:条件概率--因为不会,所以抄上了
S市A B两个区,人口比例为3:5,根据历史统计A的犯罪率为0.01%,B的犯罪率为0.015%,现有仪器新案件发生在S市,那么案件发生在A区的可能性有多大?? 28.6%
2)问答题:
1.数据预处理中,缺失值的处理方法
2.中心极限定理是什么,它有什么应用场景
中心极限定理:样本的平均值约等于总体的平均值
3.一条带有字关联、子查询的Sql语句,让我们评价它的检索速率(肯定效率低),并写一句效率高的改善
python中用什么做的特征选择。
A:feature_selection模块的selectKBest和selectPercentile
Q:选择标准
A:卡方检验