辛普森悖论
定义:在某个条件下的两组数据,分组研究时都会满足某种性质,可是一旦合并考虑,却可能导致相反的结论。
出现的原因:分组和整体看时,受到分组群体权重系数(样本量)的影响
样本相对较小的群组单个看,虽然可能在数据指标上表现更高,但放在一起看,对于总体指标表现影响较小,即话语权较小,从而形成了辛普森悖论。
在哪些场景中遇到:
1.异常定位:例如,对于某页面在9月份,男性女性用户点击率同比8月均增长,为何用户总体点击率下降?
2.相关性分析:例如,想知道APP中某个频道的用户浏览次数与APP使用时长的关系,结果做回归模型发现相关关系为负,为什么
3.AB实验:例如,上了一个产品策略在灰度时效果是显著正的,结果全量的效果对全站影响为负。