字节跳动/拼多多/滴滴面试题目和答案分享-数据分析岗
1、相关系数(字节跳动)
参考答案
协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度,设计了相关系数这一应用广泛的统计指标。其公式如下:
相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。与协方差不同的是,相关系数的波动范围是有限的,上下浮动范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。
2、如何估计样本量(字节跳动)
参考答案
按照功效分析的方法,根据预期的功效、效应值、显著性水平来计算样本大小。
答案解析
当我们在设计一个实验的时候,需要考虑很多问题,其中一个就是实验流量的分发大小,也就是这个实验中需要需要多少样本才能有意义。
这类问题可以通过功效分析(power analysis)来进行计算,在实验前计算得到所需要的样本量,或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平的情况下,判断检测到给定效应值时所需的样本大小。 反过来, 它也可以帮助你在给定显著性水平情况下,计算在某样本大小内能检测到给定效应值的概率。
我们在功效分析中一般关注四个量:功效、样本大小、效应值、显著性水平,当我们给定任意三个量后,就可以推算出第四个量。比如,在给定功效、显著性水平、效应值的情况下,我们可以推算需要多大的样本量。
1. 样本大小指的是实验设计中每种条件/组中观测的数目。
2. 显著性水平由Ⅰ型错误的概率来定义,也就是α。
3. 功效通过1减去Ⅱ型错误的概率来定义,我们可以把它看作真实效应发生的概率。
4. 效应值指的是在备择或研究假设下效应的量,效应值的表达式依赖于假设检验中使用的统计方法。
参考答案
⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?
例如之前说到的例子,目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同,而兴趣会决定专业的不同,不同专业的录取率也会不同。总体上,我们只看到了性别和录取率的关系,但是却忽略了专业这个内在原因。而拆分专业去观察,就是控制男女在专业上是相同的,这样更有利于判断因果关系。
4、作为出行领域的小玩家,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。(滴滴)
参考答案
若为较成熟健康的体系中,应为后者;在初期时为前者。
答案解析
在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。
5、说一下t检验,z检验和卡方检验的原理,及其适用条件。(拼多多)
参考答案
原理:
t检验:
z检验:
卡方检验:
Ai为实际频数(出现的次数),Ti为理论频数
适用条件:
一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。
T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异
卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。
#学习路径#