猿辅导数据分析面经(已oc)
昨天收到oc,兴奋了一整天。🤣🤣今天写份面经回馈社会
8月底的笔试,9月初开始面试,一周一面很稳定
面经一:
SQL,一道是查询排名靠前的用户,用窗口函数,一道python的斐波那契数列,都不是很难。
概率论两道:一个人一小时打到车概率0.96,半小时是多少。
两个筛子,一个1-6六个数字,另外一个筛子是没有数字的,现在想让撒两个筛子的1-12出现的概率是相同的,请问无色的筛子上应该写什么数字。
机器学习:问了一个随机森林feature importance的原理,当时回答的不是很好。
业务题:如何评估猿辅导一周体验课的效果如何。从渠道角度,ROI来分析。也可以通过用户画像和用户行为指标来判断该用户是否会续购我们的正式课。构建机器学习模型来预测潜在的用户,根据已经购买正式课的用户和羊毛党分别利用聚类算法看其特征,来对新用户进行分析预测。
面经二:
SQL:还是一道窗口函数,记不太清了,不是特别复杂🤣🤣
机器学习:如何找到具有多重共线性的特征
概率论:每袋小熊饼干里面有一张卡片,每张卡片出现的概率相同,集齐七张不同的卡集齐神龙,请问如果要集齐神龙,平均要买多少袋小熊饼干
一个圆里面有N个点,求这N个点在直径的一边的概率是多少。(这N个点都在直径的一侧的概率)
业务题:ab testing, 如果显著我们可以执行方案么,不显著呢?(要具体情况具体分析,要避免新奇效应还需要考虑实际显著性,还需要考虑测试周期)
指标构建问题,记不清了
面经三:
没考sql和机器学习,好像和别人的三面不太一样🤣🤣
主要问我之前的经历和项目,深挖。
概率论:一个筛子六个面,求六个面都被撒到的期望是多少
导致辛普森悖论的原因。
时间序列的应用场景和模型优缺点,这块是面试官看我学过相关课程,但是我已经好久没复习了😓😓,回答的不是很好,之后一定要在多学学这块
业务题:感觉这道题是我猿辅导目前碰到的最具有挑战性的,如何衡量线下广告的投放效果(地铁站的广告,新闻联播的广告等等),如何计算线下广告带来的流量
当时的回答是尝试给线下地铁的广告设置数据埋点(比如地铁广告专属二维码,这样可以跟踪地铁广告的效果),然后可以利用用户调研的方法(比如我们登录app的时候要填写‘您是从什么渠道了解到我们的产品’)类似的手段。用总的流量减去那些我们能够观测到的流量(但是感觉这样不精确)。最后提出尝试把一个广告牌撤下看看流量减少了多少(估计工作这么说会被老板打死)🤣🤣。
总之感觉当时的回答都不能够精确的定位新闻联播的流量效果,对自己的回答算不上满意。
复盘的时候想到可以利用历史数据,新闻联播广告上线前上线后,然后利用断点回归的方式来衡量。后来感觉这道题可以用计量经济学的因果论证的方式来思考解决,如果评论区有别的同学有想法请务必告诉我。
最后还是感谢猿辅导的OC😁😁,有机会做自己最想从事的数分