辛普森悖论(Simpson's Paradox)是指在不同的数据分组中观察到的现象与整体数据中观察到的现象相反的情况。具体来说,当数据被分成多个子集时,每个子集都呈现出相同的趋势,但当这些子集组合在一起时,总体趋势却与每个子集的趋势相反。一个经典的例子是关于加州大学录取率的案例。在1973年,加州大学伯克利分校的录取率为44%。然而,在男生和女生的录取率上,存在明显的性别差异。男生的录取率为51%,女生的录取率为35%。这表明,性别对录取率产生了很大的影响。然而,当进一步考虑到申请的专业时,情况发生了变化。在每个专业中,女生的录取率都比男生高。这表明,专业对录取率产生了更大的影响。当将所有专业的数据组合在一起时,女生的录取率仍然低于男生的录取率。这就是辛普森悖论。辛普森悖论的产生是由于样本的分组不当,导致了对总体趋势的错误理解。在上述案例中,如果只考虑性别对录取率的影响,而忽略了不同专业的影响,就会得出错误的结论。因此,在进行数据分析时,需要注意样本的分组是否合理,避免出现辛普森悖论。