数据分析之ABtest高频面试题及答案

ABtest

1.在abtest的应用 p值的意义，第一类和第二类错误的定义是什么？（快手、字节跳动、猿辅导）

参考答案

AB实验实际上是建立在假设检验的基础上的，P值就是在原假设成立的前提下，出现原假设以及更极端现象的概率，定义了第一类错误的具体程度，第一类错误α叫弃真错误或显著性水平，即原假设为真时却被我们拒绝的概率；

第二类错误β叫采伪错误，即原假设为伪我们没有拒绝的概率。在一定样本量的情况下，减小一类错误必然会增大另一类错误，在实践中我们一般会优先控制第一类错误，因为原假设是非常明确的

答案解析

1-第一类错误也即原假设为真的情况我们接受的概率，对于AB实验，犯这个错误代表新策略没有收益，我们却认为有收益，然后上线的错误，一般第一类错误不超过5%，第一类错误是明显的，也就是说在原假设为真的情况下接受原假设的概率要超过95%；

统计功效=1-第二类错误，也即当AB两组实际有差异时,能被我们检测出来差异的概率

2.abtest的流程（快手、拼多多、阿里巴巴、作业帮）

参考答案

实验的流程：确定目标和假设->确定指标->确定实验单位->计算样本量->实施测试->分析实验结果

答案解析

● 其中确定指标中比较关键的是要确定评价指标和护栏指标，评价指标就是驱动公司实现核心价值的指标，要具有可归因性、可测量性、敏感性和稳定性；护栏指标也就是辅助指标

● 确定实验单位有从用户层面、访问层面和页面层面进行考虑的情况，用户层面适用于易被用户察觉的变化实验，访问和页面层面适用于不易被用户察觉的变化实验；从用户层面到页面层面实验粒度越来越细，累计的样本量也越来越多

● 计算样本量，需要预先确认以下数值：显著性水平、功效、实验组和对照组的综合方差以及期望的最小差值。实验组和对照组数据量最好均分，非均分的时候只有相对较小的组达到最小样本量，实验结果才可能显著，并不是说实验组越大越好，因为瓶颈是在样本量较小的对照组上，所以实验组和对照组的样本量最好相同

● 分析测试结果的时候要注意辛普森悖论等问题，而且要保证样本达到足够的量、检验是否在正常的波动范围内

3.自变量是不良体验反馈，因变量是留存率，方法论是ABtest，二者相关性该注意什么?（滴滴）

参考答案

需要注意可能存在幸存者偏差现象。有些用户在有不良体验后会进行反馈，这种反馈在一定程度上可能解释了用户留存率下降的原因，但同时应该注意到，能进行反馈的用户通常是对平台有感情的用户，希望能通过反馈改善平台环境，继而留下来；很多真正失望的用户可能一言不发便直接流失，所以可能出现不良反馈的数量减少但留存率却下降的情况。