字节跳动/拼多多/滴滴面试题目和答案分享-数据分析岗

1、相关系数(字节跳动)

参考答案

协方差的大小受变量的相关程度及变量的方差影响,并不能真实反映两个变量的相关程度,而统计学家皮尔逊为了充分反映变量之间线性相关程度,设计了相关系数这一应用广泛的统计指标。其公式如下:

相关系数在协方差基础上进行了标准化,消除了两个变量变化幅度的影响,能够充分反应两个变量的相关关系。与协方差不同的是,相关系数的波动范围是有限的,上下浮动范围是[-1,1]。相关系数越趋近于0,表示两个变量相关程度越弱。相关系数越接近于1,两个变量的正相关程度越高。相关系数越接近于-1,两个变量的负相关程度越高。


2、如何估计样本量(字节跳动)

参考答案

按照功效分析的方法,根据预期的功效、效应值、显著性水平来计算样本大小。

答案解析

当我们在设计一个实验的时候,需要考虑很多问题,其中一个就是实验流量的分发大小,也就是这个实验中需要需要多少样本才能有意义。

这类问题可以通过功效分析(power analysis)来进行计算,在实验前计算得到所需要的样本量,或者预估在给定样本量下得到不同实验效果的概率。功效分析可以帮助在给定显著性水平的情况下,判断检测到给定效应值时所需的样本大小。 反过来, 它也可以帮助你在给定显著性水平情况下,计算在某样本大小内能检测到给定效应值的概率。

我们在功效分析中一般关注四个量:功效、样本大小、效应值、显著性水平,当我们给定任意三个量后,就可以推算出第四个量。比如,在给定功效、显著性水平、效应值的情况下,我们可以推算需要多大的样本量。

1. 样本大小指的是实验设计中每种条件/组中观测的数目。

2. 显著性水平由Ⅰ型错误的概率来定义,也就是α。

3. 功效通过1减去Ⅱ型错误的概率来定义,我们可以把它看作真实效应发生的概率。

4. 效应值指的是在备择或研究假设下效应的量,效应值的表达式依赖于假设检验中使用的统计方法。


3、辛普森悖论,以及如何避免这种现象(字节跳动)

参考答案

⾟普森悖论指在某个条件下的两组数据,分别讨论时都会满⾜某种性质,可是⼀旦合并考虑却可能导致相反的结论。为了避免⾟普森悖论导致我们得出两个相反的结论,我们需要选择将数据分组或将它们聚合在⼀起。其中我们要学会思考因果关系:数据如何⽣成,基于此,哪些因素会影响我们未展示的结果?

例如之前说到的例子,目的是探究伯利克里分校研究生录取是否存在性别歧视。即性别与录取率的关系。但是性别会导致兴趣的不同,而兴趣会决定专业的不同,不同专业的录取率也会不同。总体上,我们只看到了性别和录取率的关系,但是却忽略了专业这个内在原因。而拆分专业去观察,就是控制男女在专业上是相同的,这样更有利于判断因果关系。


4、作为出行领域的小玩家,司机端的订单构成是什么样的? 头部优秀司机聚集大量订单,还是订单分布比较发散。(滴滴)

参考答案

若为较成熟健康的体系中,应为后者;在初期时为前者。

答案解析

在较健康的供给端体系中,司机端的订单构成应为倒三角或者菱形分布,即头部和腰部司机的订单较多,尾部的订单较少;而在初期时则是头部效应明显,订单集中在头部,后期随着司机和订单量的增多,不可能由头部司机撑起大部分订单的。


5、说一下t检验,z检验和卡方检验的原理,及其适用条件。(拼多多)

参考答案

原理:

t检验:

z检验:

卡方检验:

Ai为实际频数(出现的次数),Ti为理论频数

适用条件:

一般用于大样本(即样本容量大于30)平均值差异性检验的方法。它是用标准正态分布的理论来推断差异发生的概率,从而比较两个平均数的差异是否显著。

T检验是一种适合小样本的统计分析方法,通过比较不同数据的均值,研究两组数据是否存在差异

卡方检验是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

#学习路径#
全部评论
这些数学东西真不是一般人能搞懂的
1 回复 分享
发布于 2022-02-10 13:06
数学专业的也表示头秃。而且一直授课,搞得我中英转化反应挺久的
点赞 回复 分享
发布于 2022-03-02 12:45

相关推荐

秋国🐮🐴:拿到你简历编号然后让你知道世间险恶
点赞 评论 收藏
分享
评论
6
89
分享

创作者周榜

更多
牛客网
牛客企业服务