3-5 AB实验详解:从假设检验到AB实验
【写在前面】
AB实验是数据分析师在日常工作中经常遇到的问题,广告排序,页面迭代,这些都需要在AB实验中不断优化。
我在实习中也没有接触到正经的AB实验,但在面试准备中,提前考虑到了这个因素,我的回答思路往往是:
“不好意思,在这个项目中我们没有使用AB实验,主要是出于人力、资金等的限制,但是我自己构思了一份AB实验流程……(此处省略),如果有机会让我遵循这个流程实施,我认为会有更能量化\更稳定的效果。”
对于和我一样没有AB实验项目的同学,这算是一个稳中求胜的回答了。对面试官来说,可能只是随口的提问,但是意外发现候选人有较强的学习能力以及驱动力,是一个加分点。
【基础知识】
AB实验的基础是假设检验。假设检验的原理以及具体的计算步骤会在第5章第一节中详细介绍,这里就只简单的说明一下。在统计学中,命题无法证真,只能证伪,假设检验中往往会有两个命题:H0是我们所质疑,想要推翻的命题;H1是我们想要验证的命题。
在计算统计中,我们需要用到P值来判断H0和H1的真伪,暂时简单的将P值理解为对命题H0的支持程度,P值越小就代表H0正确的概率越小。例如,制定显著性水平α=0.05,当P<α时,代表H0成立的概率<0.05,这是一个受到统计学支持的假命题。
【面试相关】
那在面试中,面试官会以什么形式来提问AB实验呢?
举一个例子,某面试官问到“你想要如何证明搜索结果页新排序算法有更高的转化率?”
那我们的回答可以遵循“提出假设-确定实验对象-确定实验条件-指定监测指标-开启实验-计算结果”的流程即可。
第一步,根据实验的目的提出假设,在这里可以提出两个命题。H0是旧排序算法的转化率高;H1是新排序算法的转化率高。H0是我们希望被推翻的命题,而H1是我们希望被证实的命题。
第二步,确定实验对象,因为排序算法最终应用在搜索结果页,所以实验对象就是进入到搜索结果页的人群,A组的用户会看见旧的排序算法,B组的用户会看见新的排序算法。
第三步,确定实验条件,这里主要是指在实验前需要大致确定显著性水平,并计算相应的最小样本量。
第四步,指定实验指标,我们以转化率作为目标指标。
第五步,借助AB平台实施实验,沟通业务、产品、开发,上线实验并持续观察几天到半月甚至更长时间。
第六步:计算实验结果并输出结论,默认显著性水平α=0.05,结合假设检验公式计算p值。若p<0.05则推翻了H0假设,证明在0.05的显著性水平下,新算法的转化率更高。
【问题集锦】
A1=A2=A,A的流量会流过A1层,A2层,换句话说就是A1A2层都能获得A全部的流量,不会因为发生的先后顺序而有流量大小的差异,它们的关系是正交;
A1_1+A1_2=A1,A1层的流量可以按照不同的配比分给A1_1和A1_2,同理A1_1和A1_2也是互斥的。
总的来说,流量正交能够让关联度较小的实验同时进行,比如A1层是UI层,A2层是推荐算法层,在业务上的关联度较弱,使用相同的流量不会对结果有太大影响;流量互斥能够让关联度较大的
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>