AB实验高频考点！命题面试官大白话讲懂『多重检验』

近期很多人来问数据科学岗的招聘要求什么

来个图举例，来看看抖音的数科岗JD：

由于日常工作中会接触到大多因果推断的工作内容

因此在JD要求上、面试的时候也会着重考核AB测试相关的知识

常见问法比如：

▷ 概念型，给你一个概念问定义，eg，是否听说过多重检验，说说你的理解？

▷ 判断型，给你多个选项问看法，eg，某个实验的策略预期评价指标不确定，所以检验指标设置了10个，是否合适？为什么？

▷ 分析型，给你一个场景case来列举问题，eg，抖音推荐流迭代了新模型，同时对卡片UI、功能、排列做了优化，同时上了5个实验，作为BI你觉得有什么问题？

以上举例，就是AB实验中的高频考点

也是工作中常忽视的错误

—— 『多重检验问题』

本篇就着上面的例子

通俗易懂的唠一唠啥是多重检验

（含case+解决方法）

注：之前已发文讲过『AB实验』整体流程和高频考点，可戳下方链接直达

https://www.nowcoder.com/discuss/826505

另，本文首发于大厂数据分析师面试官六哥的工中号【数据攻略】

------正文手动分割线------

本文结构速览：

一、什么是多重检验

二、有什么影响

三、为啥会出现

四、该如何解决

4.1 业务侧

4.2 BI侧

一、什么是多重检验

多重检验含俩词：多重和检验

首先明确一下什么是假设检验

由于无法窥探总体的表现，所以利用样本对总体进行某种推断，假设检验的推断方式就是先提出一个假设，然后利用样本信息去检验这个提出的假设是否成立。

另一个词，多重

多重检验中的重点即在于多重

意思就是 同时检验大量假设

二、会造成什么影响

想一想AB实验的本质

其实就是进行一次假设检验，即需要根据预先设定的可接受标准，即显著性水平  （业界通常默认为5%），来观察此次组间样本差异的p值是多少，以此来对假设做判断。

但其实，尽管实验期间小概率事件发生了，拒绝了原假设，即得到了显著性结果，也无法有100%的把握说咱们作出了正确判断。也就是我们通常所说的，在出现错误判断的概率是控制在可接受范围  以内下，我们得到了xxx结论。

那如果同时检验好几个假设：

检验1个假设的时候，误报的概率：

$1-95\%=5\%$

检验2个假设的时候，误报的概率：

$1-95\%*95\%=9.8\%$

检验3个假设的时候，误报的概率：

$1-95\%*95\%*95\%=14.3\%$

...

检验10个假设的时候，误报的概率：

$1-(95\%)^{10}=40.1\%$

这么一看，是不是相当于没办法保证每个假设误报的概率都在可接受范围  以内😯

所以，多重检验的影响：
▼ 用学术一点的说法就是，会使得第一类错误，也就是误报概率大大提升（也称作假阳性概率）
▼ 用一个极端例子来理解：你同时设置了100个观测指标，不做任何策略改动，多次测试总会有某个指标会显著，其实就跟随机猜没啥区别，得出显著的结论信度大大会降低（可以参照上面的例子计算一下概率）

三、为啥会出现

紧扣刚刚讲的多重检验的定义

其实日常实验过程中很常见

就是不经意间存在多个假设进行检验的时候

（考点预警！）

想一想什么时候容易碰到此类情景？

当设置多个检验指标时

当含有多个实验组别时

当进行反复查看观测结果时

当对实验群体下钻维度时

多重检验case举例：

▼ 情况一：产品对界面的做了新改动，在AB实验平台上一起看了新策略对界面的浏览深度、x模块的点击率、以及转化率、uv价值等等一系列指标，哪个指标显著就认为实验组的策略更好
▼ 情况二：由于不确定新的策略方向，所以同时上了5个策略一起做实验测试，分别观察5个组的实验效果如何，哪个显著就用哪个策略

▼ 情况三：实验上线后很心急效果如何，业务每天都看一遍是否显著

▼ 情况四：针对平台用户做了实验，在分析时拆分用户类型、基础特征等维度查看策略效果

四、该咋解决

围绕上面的case，为了实验结果更科学可信

需要业务侧和BI侧双方去解决

▋ 业务侧

绝大多数业务方，关于统计学的理解和知识储备肯定不比BI专业，所以需要进行相关宣导，强调实验的科学性和易操作误区，例如，应在实验策略生效前：

根据策略的目的，确认好观测指标，尽量选取核心指标做主要观察，不要取巧

根据业务预期可接受差异，预估样本量和实验运行周期，实验运行期间在未达到预估量前不轻易下结论，不要作弊

▋ BI侧

虽然现在大厂都有相对完备的实验分析平台，常规实验由产品自行配置和操作，但作为有owner意识的BI，也需要定期关注和检查实验配置的合理性

如果多重检验“不幸”发生，也会有一些补救措施来修正。

核心思想就是调整  至可接受水平，常见的方法如下：

①  分指标类型设置不同标准

②

③ FDR校正
如上三种方法的详细核心思想+应用举例如感兴趣，欢迎讨论~

以上就是AB实验中『多重检验』

定义、校正方法的分享
如果还需要进一步了解AB实验