AB实验高频考点!命题面试官大白话讲懂『多重检验』
近期很多人来问数据科学岗的招聘要求什么
来个图举例,来看看抖音的数科岗JD:
因此在JD要求上、面试的时候也会着重考核AB测试相关的知识
常见问法比如:
▷ 概念型,给你一个概念问定义,eg,是否听说过多重检验,说说你的理解?▷ 判断型,给你多个选项问看法,eg,某个实验的策略预期评价指标不确定,所以检验指标设置了10个,是否合适?为什么?
▷ 分析型,给你一个场景case来列举问题,eg,抖音推荐流迭代了新模型,同时对卡片UI、功能、排列做了优化,同时上了5个实验,作为BI你觉得有什么问题?
以上举例,就是AB实验中的高频考点
也是工作中常忽视的错误
—— 『多重检验问题』
本篇就着上面的例子
通俗易懂的唠一唠啥是多重检验
(含case+解决方法)
------正文手动分割线------
本文结构速览:一、什么是多重检验
二、有什么影响
三、为啥会出现
四、该如何解决
4.1 业务侧一、什么是多重检验
多重检验含俩词:多重和检验
首先明确一下什么是假设检验
由于无法窥探总体的表现,所以利用样本对总体进行某种推断,假设检验的推断方式就是先提出一个假设,然后利用样本信息去检验这个提出的假设是否成立。
另一个词,多重
多重检验中的重点即在于多重
意思就是 同时检验大量假设
二、会造成什么影响
想一想AB实验的本质
其实就是进行一次假设检验,即需要根据预先设定的可接受标准,即显著性水平 (业界通常默认为5%),来观察此次组间样本差异的p值是多少,以此来对假设做判断。
但其实,尽管实验期间小概率事件发生了,拒绝了原假设,即得到了显著性结果,也无法有100%的把握说咱们作出了正确判断。也就是我们通常所说的,在出现错误判断的概率是控制在可接受范围 以内下,我们得到了xxx结论。
那如果同时检验好几个假设:
- 检验1个假设的时候,误报的概率:
- 检验2个假设的时候,误报的概率:
- 检验3个假设的时候,误报的概率:
...
- 检验10个假设的时候,误报的概率:
这么一看,是不是相当于没办法保证每个假设误报的概率都在可接受范围 以内😯
所以,多重检验的影响:
▼ 用学术一点的说法就是,会使得第一类错误,也就是误报概率大大提升(也称作假阳性概率)▼ 用一个极端例子来理解:你同时设置了100个观测指标,不做任何策略改动,多次测试总会有某个指标会显著,其实就跟随机猜没啥区别,得出显著的结论信度大大会降低(可以参照上面的例子计算一下概率)
三、为啥会出现
紧扣刚刚讲的多重检验的定义
其实日常实验过程中很常见
就是不经意间存在多个假设进行检验的时候
(考点预警!)
想一想什么时候容易碰到此类情景?
- 当设置多个检验指标时
当含有多个实验组别时
当进行反复查看观测结果时
当对实验群体下钻维度时
多重检验case举例:
▼ 情况一:产品对界面的做了新改动,在AB实验平台上一起看了新策略对界面的浏览深度、x模块的点击率、以及转化率、uv价值等等一系列指标,哪个指标显著就认为实验组的策略更好▼ 情况二:由于不确定新的策略方向,所以同时上了5个策略一起做实验测试,分别观察5个组的实验效果如何,哪个显著就用哪个策略
▼ 情况三:实验上线后很心急效果如何,业务每天都看一遍是否显著
▼ 情况四:针对平台用户做了实验,在分析时拆分用户类型、基础特征等维度查看策略效果
四、该咋解决
围绕上面的case,为了实验结果更科学可信
需要业务侧和BI侧双方去解决
▋ 业务侧
绝大多数业务方,关于统计学的理解和知识储备肯定不比BI专业,所以需要进行相关宣导,强调实验的科学性和易操作误区,例如,应在实验策略生效前:
- 根据策略的目的,确认好观测指标,尽量选取核心指标做主要观察,不要取巧
根据业务预期可接受差异,预估样本量和实验运行周期,实验运行期间在未达到预估量前不轻易下结论,不要作弊
▋ BI侧
虽然现在大厂都有相对完备的实验分析平台,常规实验由产品自行配置和操作,但作为有owner意识的BI,也需要定期关注和检查实验配置的合理性
如果多重检验“不幸”发生,也会有一些补救措施来修正。
核心思想就是调整 至可接受水平,常见的方法如下:
① 分指标类型设置不同标准
②
③ FDR校正
如上三种方法的详细核心思想+应用举例如感兴趣,欢迎讨论~
以上就是AB实验中『多重检验』
定义、校正方法的分享
如果还需要进一步了解AB实验