数据分析秋招回顾-Day6: 统计学(Part 1)
作为一个2022届的数据分析岗位的秋招党,在去年的秋招中也成功上岸,在整个过程中也收获结识一群优秀的朋友,大家也都拿到不同大厂的数分offer,创作这个专栏主要是为了分享我们在去年整个秋招过程中如何准备面试,沉淀下来的一些知识点以及一些走过的雷区,希望能够尽量给予未来优秀的“数分人”一些帮助和岗位的资讯。也希望大家能够互相交流行业资讯,积累行业人脉。 欢迎有兴趣的同学加:yz_wxhow(记得添加来自‘ 牛客’备注哦),也可以关注公众号获取更多资讯:收割鸡。
Day6:统计学知识点总结(Part1)
核心知识点:
3、假设检验、显著性水平、置信区间
假设检验(hypothesis testing)是数理统计学中根据一定假设条件由样本推断总体的一种方法。其先对总体要得到的结论提出假设,然后利用样本信息去检验这个假设是否成立。
显著性检验是假设检验中最常用的一种方法,也是一种最基本的统计推断形式,其基本原理是先对总体的特征做出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受做出推断。常用的假设检验方法有Z检验、t检验、卡方检验、F检验等。
假设检验的基本思想:利用“小概率事件”原理,即小概率事件在一次试验中基本上不会发生。为了检验一个假设H0是否正确,首先假定该假设H0正确,然后根据样本对假设H0做出接受或拒绝的决策。如果样本观察值发生了“小概率事件”,就应拒绝假设H0,否则应接受假设H0。
显著性水平:犯第一类错误(拒真错误)的概率,也即原假设为真时被拒绝的概率,常用a表示
置信水平: 相信变量在设定的置信区间的概率,与显著性水平加和为1,用1-a表示。
置信区间:在区间估计中,由样本统计量所构造的总体参数的估计区间称为置信区间。
假设检验的基本步骤:
(1)提出原假设H0,备择假设H1。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的;
H1:样本与总体或样本与样本间存在本质差异;
预先设定的检验水平α(当检验假设为真但被错误地拒绝的概率),通常取α=0.05。
(2)选定统计方法,由样本观察值按相应的公式计算出统计量的大小,如X2值、t值等。根据数据的类型和特点,可分别选用Z检验,T检验,秩和检验和卡方检验等。
(3)根据统计量的大小及其分布确定检验假设成立的可能性P的大小并判断结果。若P>α,结论为按α所取水平不显著,不拒绝H0,即认为差别很可能是由于抽样误差造成的,在统计上不成立;如果P≤α,结论为按所取α水平显著,拒绝H0,接受H1,则认为此差别不大可能仅由抽样误差所致,很可能是实验因素不同造成的,故在统计上成立。
4、T检验 F检验 卡方检验
T检验:T检验(T-test)是为了比较数据样本之间是否具有显著性的差异,一般用于定量数据的检测(定类数据采用卡方检验),主要用于样本含量较小(n < 30),总体标准差σ未知的正态分布的样本。T检验的前提条件是假设样本服从或者近似服从正态分布。
只能比较两组数据,衍生出几种t检验的应用场景。
1)单样本均值检验
用于检验总体方差未知、正态数据或近似正态的单样本的均值是否与已知的总体均值相等。
例1:从某厂生产的零件中随机抽取若干件,检验其某种规格的均值是否与要求的规格相等(双侧检验)--- 总体均值和样本均值不相等就用双侧检验,因为不相等包括总体均值大于样本均值和总体均值小于样本均值两种情况
例2:在某偏远地区随机抽取若干健康男子,检验其脉搏均数是否高于全体健康男子平均水平(单侧检验) --- 研究的事总体均值是不是大于(小于)样本均值就用单侧检验
例2进行t检验计算步骤
a. 提出假设:H0-该山区成年男子脉搏与一般成年男子脉搏数没差别
H1-该山区成年男子脉搏比一般成年男子脉搏数高
b. 做t检验,计算统计量
计算单样本t统计量
c.查表得到p值
查看t值表,若对应的单侧p值小于0.05,在显著性水平为0.05的前提下,拒绝原假设,承认备择假设;否则承认原假设
2)两独立样本均值检验
用于检验两对独立的正态数据或近似正态的样本的均值是否相等,两组样本的数量可以不等,这里可根据总体方差是否相等分类讨论。
例1:检验两工厂生产同种零件的规格是否相等(双侧检验)
例2:为研究某种治疗儿童贫血新药的疗效,以常规药作为对照,治疗一段时间后,检验施以新药的儿童血红蛋白的增加量是否比常规药的大(单侧检验)
两个独立样本的T检验,通常需要先进行F检验(方差齐次检验),检验两个独立样本的方差是否相同,若两总体方差相等,则直接用t检验,若不等,可采用t’检验或变量变换或秩和检验等方法。也就是说进行两独立样本的T检验时,需首先验证两样本的方差是否相同,进行t检验步骤与1)类似,t统计量换为
3)配对样本均值检验
用于检验一对配对样本的均值的差是否等于某一个值,要求两组样本数据必须相等,总体方差相等,并近似正态分布。这种情况常常出现在生物医学研究中,常见的情形有:
例1:配对的受试对象分别接受不同的处理(如将小白鼠配对为两组,分别接受不同的处理,检验处理结果的差异)
例2:同一受试对象的两个部分接受不同的处理(如对于一批血清样本,将其分为两个部分,利用不同的方法接受某种化合物的检验,检验结果的差异)
例3:同一受试对象的自身前后对照(如检验癌症患者术前、术后的某种指标的差异)
什么叫配对?就是消除了每一对自身的差异,比如对照组是一比一挑出来的,比如年龄,性别,学历,都和另一个组的分布是一模一样的,这种情况就是用配对检验,如果是随机挑出来的,那么就用独立样本检验。
F检验:F检验(F-test),最常用的别名叫做联合假设检验(英语:joint hypotheses test),此外也称方差比率检验、方差齐性检验。它是一种在零假设(null hypothesis, H0)之下,统计值服从F-分布的检验。要判断两总体方差是否相等,就可以用F检验。
计算过程:
计算得到的F值,再与对应F分布表查询,若大于表中的值,则接受原假设(两样本的方差相同),否则拒绝原假设。
卡方检验:卡方检验(chi-square test),也就是χ2检验,用来验证两个总体间某个比率之间是否存在显著性差异。卡方检验属于非参数假设检验,适用于布尔型或二项分布数据(即只适用于分类变量),基于两个概率间的比较,早期用于生产企业的产品合格率等。
卡方检验是以χ2分布为基础的一种常用假设检验方法,它的原假设H0是:观察频数与期望频数没有差别。该检验的基本思想是:首先假设H0成立,基于此前提计算出χ2值,它表示观察值与理论值之间的偏离程度。根据χ2分布及自由度可以确定在H0假设成立的情况下获得当前统计量及更极端情况的概率P。如果当前统计量大于P值,说明观察值与理论值偏离程度太大,应当拒绝无效假设,表示比较资料之间有显著差异;否则就不能拒绝无效假设,尚不能认为样本所代表的实际情况和理论假设有差别。(摘自智库百科)。
卡方检验的基本公式为:
A 为观察值,E为理论值,k为观察值的个数,最后一个式子实际上就是具体计算的方法了 n 为总的频数,p为理论频率,那么n*p自然就是理论频数(理论值)。
卡方检验是以χ2分布为基础的一种常用假设检验方法,χ2分布,就叫做卡方分布。若k 个随机变量Z1、……、Zk 相互独立,且数学期望为0、方差为 1(即服从标准正态分布),则随机变量X:
记作:
在做卡方检验时,通常针对的数据主要为定类数据,例如样本中是男生的人数,研究的问题通常是两个类别之间是否有显著关联。