拼多多学霸批数据分析笔试解题思路
应一些小伙伴的邀请,分享一下这次笔试的大概解题思路。一共有5道大题,3道SQL,1道条件概率,1道是设计A/B test,应该都做对了。3道SQL基本就是平时实习的时候要写到的,算新增,回流,第二题查询下一条记录需要写个lead的开窗。出的还是很贴近数据分析师的日常工作,没实习过应该有点难度。
1. SQL的第一题比较简单,主要就是表的关联和窗口函数的运用
2. 第二题的话,有个难点是A操作后是B,AB必须相连,这个最方便的就是用开窗函数,lead() over(partition by order by),这个函数是专门查找下一条记录的
3. 第三题也是实际中经常会算的。
算新增的思路是先对每个用户聚合,算出用户最早的log_time,这个时间就是新增时间,然后用新增时间聚合去算每一个新增天数的distinct user_id,这样就是每天新增了。需要注意的是时间格式需要由时刻转成天,可以用to_date()或者date()函数,HIVE的话是用date()。
算回访的思路是把新增表和活跃表关联,这样就可以找到新增用户的所有访问记录,用datediff()函数算出访问时间和新增时间的差值,再用where diff = 1 or diff = 29来筛选第2天和第30天回访的用户
4. 第四题的话就是条件概率了,复习一下问题应该不大。
5. 第五题是要设计一个a/b test, 统计术语就是t-test。这个需要先确定企业可以接受的误差范围来确定样本量和置信度Z值, 然后算出新老版本支付转化率的平均值及平均值的差 x1 bar - x2 bar,还需要算出这个差值的标准差sigma,最后通过置信区间的公式算出置信区间,再判断差值在不在区间里,最后就可以确定A,B两个方案在该置信度下有没有显著差异
#拼多多##笔试题目##数据分析师##笔经##题解#