5-1 数理统计基础知识(上)
【写在前面】
数理统计知识是数据分析岗的必备基础知识之一。在笔试中,我们会遇到很多概率论,假设检验相关的问题,在面试中,还会有面试官时不时拿出一些数理统计的问题考考你。不论你是理科,工科,商科,在大学期间都需要学习概率统计的必修课。因此,在校招准备过程中,数理统计的相关内容其实是对已学过知识的再次复习与总结。严格的来说,这一部分内容包括了统计学,概率论等等,知识点颇多,且有一定难度。
鉴于数理统计内容的复杂性与庞大性,本章并不会像书本一样把所有的定理一一介绍得非常全面,而是会着重于介绍常考的定理内容以及应用方式。因此,本章内容,更加适合那些对基础知识已有了解,只是不知道考点以及不会总结的同学。而对于完全没有学习过相关内容,或者学过了已经忘得差不多的同学来说,推荐大家拿出半个月到一个月的时间,学习专业书籍,毕竟相比于文章的几千上万字,很多的原理以及推导过程,只有书籍能够介绍得更加清楚。
【重点知识】
一、 常见的样本分布形态
样本的频数分布主要有正态和偏态。
1、 正态分布
举例:假如对周围所有的同学统计身高(人数足够多),并用条形图进行统计。会发现,100人的身高集中在158-162之间,80人的身高集中在155-158以及162-165之间;50人的身高在154-155或者166-168之间,以此类推。在图形中,绝大多数人的身高集中在中间部分,呈现出中间的条形图高,两边的条形图高度依次递减的情况,呈倒扣的钟形,这就是正态分布。
2、 负偏态分布
3、 正偏态分布
二、 中心极限定理
定义:足够多次的抽样,对每次抽中样本统计均值,多次抽样的均值围绕总体均值波动,呈正态分布。
举例:某高校平均体育成绩为为75分,则随机抽取一个班,统计其平均成绩,重复抽样10组,每组平均成绩将会围绕75分呈正态分布。(对总体分布没有要求;足够多次抽样后、样本均值分布呈正态趋势)。
扩展:根据中心极限定理,我们能够用样本数据估计整体表现,如用于民意检测过程。
三、 大数定理
定义:在随机试验中,每次出现的结果均不同,但当试验次数足够多时出现的结果的均值将会收敛于某个确定的值。这就是说:如果统计的数据足够大,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率值。
举例:丢硬币,丢正面可以得到一元钱,丢反面没有钱,那么丢一次硬币的期望收益是五毛钱。丢10次硬币的时候,可能只获得了2块钱,但是我丢100次硬币时,可能能够互殴的40元,丢1万次硬币,收益和5000元非常接近。
四、 假设检验步骤
假设检验是用统计数据判断命题真伪的方式。在统计学里,命题不能被证明是正确的,只能证明其否命题是错误的。
假设检验的步骤是:
(1)提出原假设与备择假设
假设检验往往会假定两个命题,一个是H0,一个是H1。
其中,H0是原假设,是我们想要推翻的假设,在设置H0时,常设H0=XX或者H0>=XX或者H0<=XX。
而H1叫备择假设,是我们有待检验证实的问题。备择假设往往与原假设相互呼应,设定为H1≠XX或者H1<XX或者H1>XX。
(2)根据样本构建检验统计量
当样本量小于30时,我们叫做小样本,需要利用样本的分布统计值构建检验统计t值。若总体标准差σ已知,我们可以根据以下公式计算t值,其中,x是样本均值,μ0代表总体均值,n是样本量:
当总体标准差σ未知时,我们自有另一套相似的公式来计算t的大小。
那如果样本量大于30呢?样本量大于30时我们叫做大样本,需要利用样本的分
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>