数据分析必问题——AB实验(2)
在上一篇文章中,我主要介绍了AB实验是什么、运用场景以及如何设计和评估实验,在这篇文章中,我主要介绍AB实验中经常被问到的一些问题,我大致将这些问题分为两类:
1.统计学相关问题
重点考察统计学知识
- 第一类错误和第二类错误是什么?两者有关系吗?应该控制第一类错误还是第二类错误?
- 假设检验的基本原理是啥?
- p值是什么?
2.实操的问题
重点考察是否对AB实验的实际运用有一定了解
- 说一下AB实验的流程?
- AB实验底层用到哪些检验方法?各类方法分别适用于哪些场景?
- 如何保证或者检验流量分配是否合理?
- 为什么实验有效果,全量上线后没有效果(或者反向)?
- 实验结果不显著怎么办?
- 实验样本量不足怎么办?
- 实验运行中可以新增实验组吗?
3.部分问题答案
1)实验分组需要注意些什么?
- 实验单一变量原则:保证对照组和每个实验组间 “有且仅有一个变量”,以确保对实验效果进行准确归因或量化;
- 保证分流均匀随机:可通过AA实验帮助检验分组的随机性
2)如何确定实验指标?
- 核心指标:实验最想要提升的指标,公司或者业务的核心指标,比如日活、营收或时长;
- 观察指标:包含实验会直接影响的过程指标,以及实现最终指标所需要的关键环节指标,比如某个功能的曝光量或者转化率;
- 全局指标:包含实验策略可能带来的一些负向影响,比如有些策略可能会损害用户体验,导致用户流失,可以看卸载率指标,还包含一些实验可能带来的正向效果评估指标,是策略好坏的直接评价,比如留存率、点击率等。
3)如何确定实验所需的样本量?
理论上,样本量越多越好;现实操作中,样本量应该越少越好(置信前提下),更大的样本量和更长的实验周期能获得更大的统计功效(power)和更准确的测试。根据「实验核心观测指标预计的变动量」、「指标方差」、「实验允许犯第一类错误和第二类错误的概率」来确定所需的最小样本量,Z检验下的样本计算量公式如下:
不同检验所需要的样本量计算方式不同,具体场景需要具体分析。样本量公式推导是通过假设检验中对统计功效(Statistical power)的计算推导而来,具体推导公式不在这儿展开,数据分析面试一般不会深入展开。
4)AB实验中第一类错误、第二类错误和统计功效分别是什么?
原假设:A组和B组无显著差异
备择假设:A组和B组有显著差异
第一类错误:去真,原假设为真,拒绝原假设。A和和B组本身无差异,但实验结论是有差异。
第二类错误:取伪,原假设为假,没拒绝原假设。A组和B组本身有差异,但实验结论是没有差异。
统计功效:当原假设为假,拒绝原假设的概率,也就是【1-犯第二类错误的概率】。A组和B组有差异且实验结论是有差异。
样本量一定的情况下,第一类错误和第二类错误有着此跌彼涨的关系,具体应该控制第一类错误还是第二类错误需要视情况而定,看哪类错误的成本更高。
5)实验观察周期如何确定?
- 至少一周,以便不同活跃周期的用户都能被观测到,比如有的用户习惯工作日活跃,有的用户习惯周末活跃;
- 排除新奇效应的影响,对于一些前段UI更改实验,用户很容易感知到,实验前期用户可能出于好奇心会去体验,这时候观测的指标其实是有偏的,一段时间后新奇效应消失后,实验的效果才会趋于稳定,因此针对这一类型的实验需要一个较长周期的观测来避免新奇效应;
- 观测核心指标在实验后的变动趋势,当核心指标变动相对稳定时才能关闭实验。
关注我,下一篇会继续补充关于AB实验的高频问题~
欢迎大家评论区讨论~
大家后续想了解数据分析或者商业分析哪些方面的内容可以再评论区留言告诉我哦~
🍻一起成长吧~
#数据分析##数据分析学习记录##数据分析面试笔试##牛客解忧铺##牛客在线求职答疑中心#分享如何回答数据分析面试的常见问题,比如AB实验、指标体系搭建等。