5-2 数理统计基础知识(下)
继续接着上一篇文章,继续介绍笔试面试中常出现的梳理统计知识。上一篇文章介绍的主要和假设检验相关,这一篇文章的知识点会零散一些,主要是一些基本的定理内容,有时候在面试聊天的时候会被猝不及防的问到。
在介绍完这些定理后,会有专门的文章继续介绍笔试面试常见的题型。
十、方差、协方差
方差用来刻画一个样本中数据的离散程度(波动大小)。其中,X为样本值,μ为样本均值,N为样本总数。
协方差是一种用来度量两个随机变量关系的统计量。期望值分别为E(X)和E(Y)的两个随机变量X和Y之间的协方差计算公式为:
如果两个变量的变化趋势一致,也就是说如果其中一个大于自身的期望值时另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值,即两个变量正相关;协方差为0代表两个变量不相干。
![](https://uploadfiles.nowcoder.com/images/20210421/3923393_1619018059367/BC7C9AD1562A4F6BDC6AA7122F4629A8)
十一、相关系数
主要了解皮尔逊线性相关即可。Spearman和kendall计算方式较为复杂,笔面试很难出现,有兴趣的可以自行搜索公式以及计算方式。
1、 皮尔逊相关系数:又称为线性相关系数,由协方差与方差的比值计算而来,取值在-1到1之间:
要点包括:
① 当连个变量之间的线性相关程度加强时,皮尔逊相关系数的绝对值趋向于1,当两个变量之间的线性相关程度减小时,皮尔逊相关系数趋向于0;
② 样本极端值对于皮尔逊系数的影响较大;
③ 使用该系数时,相应的变量呈正态分布,最好服从联合的双变量正态分布;
④ 皮尔逊变量有一个很重要的特征:它在两个变量的位置和尺度的单独变化下是不变的,我们把x改成a+bx并且将y改成c+dy,相关系数并不会改变。
2、 spearman等级相关系数。当两个变量具有单调的函数关系(不一定是线性函数)时,两个变量是spearman相关的;
3、 Kendall相关系数:计算分类变量的相关性。取值范围在-1到1之间。等于1代表两个变量有一致的等级相关性;等于-1代表两个变量有完全相反的等级相关性;等于0代表两个变量相互独立。
在实际工作中,我们常常需要观察数据之间的相关性。最简单的方法就是在Excel中画出两因素的折线图,使用添加趋势线功能大致查看相关系数,判断数据之间是否有可以解释的相关性。要注意相关性不等于因果性,若发现折扣率与总收益之间存在正相关,并不能直接下结论“因为打折,所以收益增加了”。想要证明因果关系,还需要使用AB实验。
十二、幸存者偏差
所统计的数据全都来源于幸存的人,因为失败出局者根本没机会给出回答。当样本中有数据缺失时可能出现幸存者偏差。在幸存者偏差这个问题中,我们观察到的样本是被筛选过的有偏样本。例如记者春运的时候在火车上问大家买票那不难,最终得到结论:春运买票很简单。
十三、三种常见的离散概率分布
1、 二项分布
二项代表事件往往只有两种可能的结果,一种是成功,另一种是失败。在n次独立重复的实验中,假设每次实验A事件发生概率为p,X表示A事件发生的次数,存在公式:
以丢硬币为例,丢5次硬币,3次正面向上的概率是多少?此时正面向上的概率p=0.5,n为总实验次数n=5,k为3,套用公式得到概率为31.25%。
2、 几何分布
几何分布是指,在伯努利实验中,某件事成功的概率为p,提问实验x次才第一次成功的概率。也就是说前x-1次的实验都是失败的,在第x次实验时才恰好成功。公式为:
以打抢为例,打枪中靶的概率是1/3,打4枪才中靶一枪的概率就是:
3、泊松分布
在排队论中使用比较广泛,比如说,在一个医院中,假设每个病人来看病的概率都是随机且独立的,那
剩余60%内容,订阅专栏后可继续查看/也可单篇购买
校招面试考点全解析——数据分析师篇 文章被收录于专栏
<p> 为什么要学习本专刊 (1)数据分析面试日益激烈,招聘门槛提高,对业务、技术的综合考察难度上升; (2)网上对数据分析面试题型的整理与解析质量参差不齐,缺少框架清晰、内容全面的学习资料; (3)直击数据分析面试热点问题; </p>