数据分析面经2
回馈篇!数据分析面经汇总
感谢大家的建议,现在正式收到亚马逊offer,准备暑期上岸啦~
从三月初到现在,经历快两个月的时间,真的很折磨。。也会有阴错阳差的感觉,并没有选择去“理想意义”、与专业和前景很匹配的岗位和公司,确实心里会有前期准备及自己的专业有点浪费的感受,但综合考虑后,也是随心所向,去体验一把从未有过的味道,说不定就非常适合自己呢~暑期实习对于我来说,倒更像是较高成本的试错和赌博,当然还是会好好准备七月就开始的互联网秋招!
这次暑期实习的准备选用的海投战术,现在回看其实浪费了很多时间精力在不必要的岗位/公司上(当时只觉得好玩,后来就意识到时间成本的问题了w)选择性整理了一些可能对大家有用的面经~(也记不太全了,能写的都写了)
小哥哥问的全是数学题。。。
概率的定义(样本空间、事件域、概率/测度)
事件域的定义
中心极限定理
实变函数(勒贝格积分、黎曼积分)
假设检验的定义、例子
p值定义
假设检验具体case:微信新功能上线,如何判断新功能对微信群体的停留时长有什么影响(无/好/差),明确零假设,明确两个均值是使用前的总体平均停留时长和使用后的总体平均停留时长;抽取10万用户使用新功能,总10亿用户,可近似看成有放回的总体;两组样本构造检验统计量;回忆假设检验原理(如何拒绝原假设:在原假设成立的条件下统计量服从某分布,若统计量落到了几乎不可能发生的区域,则有极大的信心去推翻原假设);统计量的绝对值大于正态分布分位数
假设检验case升级:给定义“曝光点击率”,每个个体有曝光数和点击数,关心有无新功能的总体曝光数的和与总体点击数的和的比例差异,不能使用cauchy分布;提示:进行一些转换变成已知的问题,比如用Taylor展开,用近似的方法变成一系列简单的分布的组合(???)
case3:产品经理使用假设检验来看有没有用,在第一天抽取10万用户做了假设检验,p值不到置信水平,在第二天抽取10万用户,与第一天的10万合并,20万用户做了假设检验,p值还不到置信水平;直到第七天,p值达到,认为新功能可以上线了!这样做有没有什么问题?结论可靠吗?
第一类错误和第二类错误定义
第一类错误正常情况下发生的概率和检验水平的关系
产品经理的行为犯了哪一类错误(第一类,对用户总体可能没有影响,但有较大概率会得到结论说有提高效果)
假设检验的连续观测问题,p-test是固定样本检验
结局:凉-被捞后台开发-直接放弃-然后再无音讯。。
1) 用户注册表(user_id, 用户id全局唯一, 如11111;label, 用户实际label, bool 0或1;score, 模型预测score, 范围0.0~1.0)
每一行记录一个用户真实的label,然后用一个二分类模型预测出来的对应每一个用户的score,范围是0~1
请随机输出500个阈值点下的precision recall曲线
2) 用户注册表(user_id, 用户id全局唯一, 如11111;register_date, 注册时间, 2019-08-01 16:00:40;country, 注册国家, 中国)
查询注册用户最多跟最少的国家;查询每个国家第一个注册跟最后一个注册的用户id
(Union两个subquery 一个选max一个选min)
3) 视频表(user_id, 用户id全局唯一;photo_id, 视频id全局唯一;timestamp, 观看视频时间戳)
视频标签表(photo_id, 视频id全局唯一;photo_tag, 视频标签, 如搞笑)
视频表中记录的是每一个用户观看的每一个视频的时间戳,视频标签表记录的事每一个视频对应的标签
统计用户观看的最后一个视频的photo_tag分布
4) y1,…,yn为真实值,yhat1,…,yhatn为拟合值,回归模型拟合结果存储在DataFrame,用代码展示结果RMSE和R^2.
5) 随机事件包含a,b,c,d四种情况,概率分别为0.1,0.2,0.3,0.4,设计一符合该概率的采样方法(如输出长度为N的包含字符串a,b,c,d的list,且a,b,c,d的出现概率分别为0.1,0.2,0.3,0.4)
地铁项目(改进算法)
社区挖掘项目(算法介绍、用的什么包、怎么实现的)
实习爬虫相关
如何证明不存在最大质数(反证法,假设存在,那么将所有小于等于它的质数相乘+1得到的也是质数,矛盾)
抛硬币10000次,7000次朝上,求置信区间(中心极限定理)
一个家庭有两个孩子,其中一个是女孩,那么另一个也是女孩的概率是多少
用过快手/抖音/b站吗
推荐视频有曝光数据,给一个表,user_id, vedio_id, timestramp, is_click
点开第一条视频的满足感为3,第二到五条的满足感为1,大于等于六为0;任意选一条记录,问平均满意度
(说复杂了。。其实只要给每个记录一个满意度,取个均值就好了)
自己觉得比较好的项目,深挖(测试集是整个图吗?只是删掉的图吗?时间复杂度?)
项目对快手有什么价值?(可能认识的人,等等)
有没有实
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
如果你问:“什么时候你才真正觉得接近了秋招?” 那一定是:“收到牛客绿皮书那一刻” 连续六年, 整合各大名企秋招考题 只为做到校招届的【五年高考三年模拟】 20家大厂授权,本次公开 200页笔面试真题解析合集 4大互联网热门岗位 保姆级攻略—你的求职绿卡!