数据道术器:统计知识|假设检验(一)
《统计知识|假设检验(一)》
本文详尽介绍了统计中的假设检验原理和统计量,P值判断两种方法。最后结合例子介绍了假设检验的实际应用。
这一期,带大家温习温习数据分析必备技能假设检验。假设检验作为数理统计的核心,在数据分析工作中同样具有极其重要的地位。我们常遇到的AB测试、检验数据分布异同等问题都离不开假设检验。
小编首先给大家介绍一下假设检验的原理,然后介绍一下假设检验的细节,最后帮大家温习一下假设检验的不同应用。
PartⅠ假设检验原理
假设检验基于的是小概率事件原理。小概率事件原理认为的是:“小概率事件在一次试验中是几乎不可能发生的。”我们可以结合分布图去理解这句话。
总的来说小概率事件原理的内涵:极端事件发生的概率很小。而假设检验正是利用了小概率事件原理,我们利用统计量是否极端来对假设是否成立进行判断。
例如:硬币是均匀的,抛硬币后正面朝上的概率为0.5,极端事件为连续20次正面朝上,其发生概率为0.5的20次方。
PartⅡ假设检验细节
1.P值和显著性水平(alpha)的概念
既然我们知道判断假设是否成立的依据是判断假设对应的事件是否是极端事件,那么下一步我们就是要运用概率工具来量化这个事件的发生概率,这个事件的发生概率小于某个给定阈值则认为事件是极端事件。
在统计学里,P值为当原假设为真时所得到的样本观察结果或更极端结果出现的概率。判断事件为极端事件的阈值为显著性水平。
当P值比显著性水平低时,假设对应的事件判断为极端事件,也就是说假设对应的事件基本不会发生,因此拒绝假设。相反,P值比显著性水平高时,假设对应的事件判断不是极端事件,因此接受假设。
通常我们都会把显著性水平设定为0.1或者0.05,沿用上述例子的概率,显然抛硬币20次正面朝上的概率小于0.05,因此该事件是极端事件无疑了。
2.假设检验步骤和P值、检验统计量的计算
这部分简单的介绍下假设检验的步骤和P值的计算方法。假设检验的关键步骤可以总结为:
①提出假设
②确认拒绝域
③计算统计量、计算P值
假设检验中我们可以根据P值大小、检验统计量大小来给出检验结果的判断。在检验中我们会遇到三种情形:
①左侧检验 原假设H0:μ≥μ0 vs 被择假设H1:μ>μ0
②右侧检验 原假设H0:μ≤μ0 vs 被择假设H1:μ<μ0
③双侧检验 原假设H0:μ=μ0 vs 被择假设H1:μ≠μ0
其中对于不同检验问题(左侧、右侧、双侧检验)计算P值的方法和判断统计量方向的依据是不一样的。
2.1 P值的计算和判断
以均值检验为例,左侧检验的P值计算方法如下:
右侧检验的P值计算方法如下:
双侧检验的P值计算方法如下:
为了让大家更加直观的理解P值的内涵,我们用图像来呈现P值。
上面的这张图可以直观的理解P值。以右侧检验为例,蓝色线代表显著性水平(比如0.05)下的临界值,蓝色线右边所包围区域的面积为0.05。绿色线表示在H0为真时,计算出来的样本统计量。P值是比绿色线更极端值的概率,在图上可以表示为大于绿色线区域(也就是图中绿***域的部分)所占的比例。
如上图所示,绿色线右侧包含的面积(P值)小于蓝色线右侧包含的面积(显著性水平),因此我们要拒绝原假设。