数据分析之ABtest高频面试题及答案
ABtest
1.在abtest的应用 p值的意义,第一类和第二类错误的定义是什么?(快手、字节跳动、猿辅导)
参考答案
AB实验实际上是建立在假设检验的基础上的,P值就是在原假设成立的前提下,出现原假设以及更极端现象的概率,定义了第一类错误的具体程度,第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;
第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的
答案解析
1-第一类错误也即原假设为真的情况我们接受的概率,对于AB实验,犯这个错误代表新策略没有收益,我们却认为有收益,然后上线的错误,一般第一类错误不超过5%,第一类错误是明显的,也就是说在原假设为真的情况下接受原假设的概率要超过95%;
统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率
2.abtest的流程(快手、拼多多、阿里巴巴、作业帮)
参考答案
实验的流程:确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果
答案解析
● 其中确定指标中比较关键的是要确定评价指标和护栏指标,评价指标就是驱动公司实现核心价值的指标,要具有可归因性、可测量性、敏感性和稳定性;护栏指标也就是辅助指标
● 确定实验单位有从用户层面、访问层面和页面层面进行考虑的情况,用户层面适用于易被用户察觉的变化实验,访问和页面层面适用于不易被用户察觉的变化实验;从用户层面到页面层面实验粒度越来越细,累计的样本量也越来越多
● 计算样本量,需要预先确认以下数值:显著性水平、功效、实验组和对照组的综合方差以及期望的最小差值。实验组和对照组数据量最好均分,非均分的时候只有相对较小的组达到最小样本量,实验结果才可能显著,并不是说实验组越大越好,因为瓶颈是在样本量较小的对照组上,所以实验组和对照组的样本量最好相同
● 分析测试结果的时候要注意辛普森悖论等问题,而且要保证样本达到足够的量、检验是否在正常的波动范围内
3.自变量是不良体验反馈,因变量是留存率,方法论是ABtest,二者相关性该注意什么?(滴滴)
参考答案
需要注意可能存在幸存者偏差现象。有些用户在有不良体验后会进行反馈,这种反馈在一定程度上可能解释了用户留存率下降的原因,但同时应该注意到,能进行反馈的用户通常是对平台有感情的用户,希望能通过反馈改善平台环境,继而留下来;很多真正失望的用户可能一言不发便直接流失,所以可能出现不良反馈的数量减少但留存率却下降的情况。
4.AB Test有什么缺点?(滴滴)
参考答案
(1)制作AB版本的开发、数据收集的工作量较大、以及后期维护成本增加,ROI低;
(2)AB测试受场景限制,产品版本发布后,无法增加或更改AB测试场景;
(3)通常应用于短期即刻行为,不适用与需要很长时间才能验证的测试;
(4)需要的用户人数多,要有足够的样本量。
5.AB测试在什么平台上进行?介绍一下主要步骤?(字节跳动)
参考答案
(1)定义策略:确定分流的目的、放量规模、递增的频率、回滚的策略等;
(2)筛选用户:确定分流访问的用户特征,定义规则(根据IP,user_id,cookie,业务需求(商户)等因素,指定分流策略)或导入名单;
(3)访问分流:技术支撑,根据分流策略向用户展示不同内容;
(4)发布运行:根据不同的实现方案进行部署;
(5)采集分析:收集数据,比较不同的方案效果,确定最终方案。
#数据分析师##面经##快手##字节跳动##猿辅导##拼多多##阿里巴巴#