拼多多学霸批数据分析笔试解题思路

应一些小伙伴的邀请,分享一下这次笔试的大概解题思路。一共有5道大题,3道SQL,1道条件概率,1道是设计A/B test,应该都做对了。3道SQL基本就是平时实习的时候要写到的,算新增,回流,第二题查询下一条记录需要写个lead的开窗。出的还是很贴近数据分析师的日常工作,没实习过应该有点难度。
1. SQL的第一题比较简单,主要就是表的关联和窗口函数的运用
2. 第二题的话,有个难点是A操作后是B,AB必须相连这个最方便的就是用开窗函数,lead() over(partition by  order by),这个函数是专门查找下一条记录的
3. 第三题也是实际中经常会算的。
算新增的思路是先对每个用户聚合,算出用户最早的log_time,这个时间就是新增时间,然后用新增时间聚合去算每一个新增天数的distinct user_id,这样就是每天新增了。需要注意的是时间格式需要由时刻转成天,可以用to_date()或者date()函数,HIVE的话是用date()。
算回访的思路是把新增表和活跃表关联,这样就可以找到新增用户的所有访问记录,用datediff()函数算出访问时间和新增时间的差值,再用where diff = 1 or diff = 29来筛选第2天和第30天回访的用户
4. 第四题的话就是条件概率了,复习一下问题应该不大。
5. 第五题是要设计一个a/b test, 统计术语就是t-test。这个需要先确定企业可以接受的误差范围来确定样本量和置信度Z值, 然后算出新老版本支付转化率的平均值及平均值的差 x1 bar - x2 bar,还需要算出这个差值的标准差sigma,最后通过置信区间的公式算出置信区间,再判断差值在不在区间里,最后就可以确定A,B两个方案在该置信度下有没有显著差异
#拼多多##笔试题目##数据分析师##笔经##题解#
全部评论
考试现场好蒙圈,时间根本不够,看了大神的思路,好清晰,谢谢 ~ 整理了一下答案,请大神帮忙看一下:https://zhuanlan.zhihu.com/p/75704180
4 回复 分享
发布于 2019-07-31 23:05
n < 30 才是ttest,然后我默认t > 30 然后写了 z test。。。。。。。。。。
点赞 回复 分享
发布于 2019-07-28 18:36
思路有问题的话大家可以一起讨论哈
点赞 回复 分享
发布于 2019-07-28 17:04
MySQL没有那些窗口函数,今天的SQL对我来说好难啊~
点赞 回复 分享
发布于 2019-07-28 17:05
没有sql格式,我选的其他代码哈哈哈哈不知道怎么评分
点赞 回复 分享
发布于 2019-07-28 17:08
不同月份的同一日期用date()会错误匹配吧
点赞 回复 分享
发布于 2019-07-28 17:10
哇,你好厉害
点赞 回复 分享
发布于 2019-07-28 17:12
最后一分钟把date改成了getdate,脑抽,gg了
点赞 回复 分享
发布于 2019-07-28 17:13
大佬,有一个小问题,第三题,你找出新增时间后,用它去聚合的时候,user_id还是有非新增的用户呀,比如按你的思路找出用户1的新增时间是19年7月28日,然后用19年7月28聚合,后面的user_id可能会有2 3等等,因为他们不是这天新增的用户,但可能这天有记录,这个是不是有些问题?或者说是我理解错了你的意思?
点赞 回复 分享
发布于 2019-07-28 17:14
第三题没做出来,看完lz的解释豁然开朗。
点赞 回复 分享
发布于 2019-07-28 17:21
捉住了同班大佬!
点赞 回复 分享
发布于 2019-07-28 17:24
今天偶然瞟了一眼lag(),看到了lead()没细看。。。醉了hhh 谢谢楼主分享~
点赞 回复 分享
发布于 2019-07-28 17:25
大佬,想问下第一题第二问说截止时间到笔试时间,这个笔试时间该是什么?还有大佬方便的话可以写下第三题的完整代码吗,看思路有点看不太懂
点赞 回复 分享
发布于 2019-07-28 17:47
第五题,我从产品改版的意义出发😂😂,分析了商业价值和用户价值,构造了商转指标和用户体验指标,强行解释了一波(暴露产品经理本质),这里扯多了,后面写了个假设检验和中心极限定理就没时间了。
点赞 回复 分享
发布于 2019-07-28 18:02
太厉害了!
点赞 回复 分享
发布于 2019-07-28 18:02
最后一题我写的是用回归。。看是否为新页面的p值和系数 学校里有一门课的case是看ebay 的广告效果就是这样做ab testing的,但我感觉在别的地方没怎么见过用回归的。。🤣
点赞 回复 分享
发布于 2019-07-28 23:05
求问一下如果用 lead,那如何取出连续2条记录呢,只想得到取出一条记录😂求思路,谢谢~
点赞 回复 分享
发布于 2019-07-29 18:21
感谢大佬分享!!!
点赞 回复 分享
发布于 2019-07-29 18:29
想看一下大佬第二题的code呢!
点赞 回复 分享
发布于 2019-08-05 18:12
楼主,求每天新增是不是可以自连接,只要它在当前天之前的所有天都没出现过,那么就算它是当天的新增?
点赞 回复 分享
发布于 2019-09-01 11:03

相关推荐

09-29 11:19
门头沟学院 Java
点赞 评论 收藏
分享
巧克力1:双选会不如教室宣讲会
点赞 评论 收藏
分享
25 182 评论
分享
牛客网
牛客企业服务