拼多多/滴滴/广联达面试题目和答案分享-数据分析岗
1、随机误差的分布(同盾科技)
参考答案
正态分布(高斯分布)
答案解析
根据中心极限定理,大量独立的随机变量之和趋向于某个稳定的分布,该分布后来被人们称作正态分布(高斯分布)。人们认为误差是随机的,所以误差的和服从正态分布。
2、简单说一下两类错误(猿辅导)
参考答案
第一类错误α叫弃真错误或显著性水平,即原假设为真时却被我们拒绝的概率;第二类错误β叫采伪错误,即原假设为伪我们没有拒绝的概率。在一定样本量的情况下,减小一类错误必然会增大另一类错误,在实践中我们一般会优先控制第一类错误,因为原假设是非常明确的
答案解析
1-第一类错误也即原假设为真的情况我们接受的概率,对于A/B测试,犯这个错误代表新策略没有收益,我们却认为有收益,然后上线的错误,一般第一类错误不超过5%,第一类错误是明显的,也就是说在原假设为真的情况下接受原假设的概率要超过95%;统计功效=1-第二类错误,也即当AB两组实际有差异时,能被我们检测出来差异的概率
3、简单说一下说说置信区间、置信度(滴滴、广联达)
参考答案
为了降低测量误差,通常多次实验并取其平均值。为了评估一名射击运动员的真实水平,经过一次测试,他射击10次的平均值为8环,那8环就能代表他的真实水平了吗?当然不能这么简单得出结论,有可能再经过一次测试,他射击的平均水平就变成了7环。在这种情况下,不能简单地进行运动员射击水平的点估计,而是给出一个可信度及在此置信度下对射击水平进行估计的置信区间[a,b]。由此引出置信区间和置信度,接下来介绍置信区间和置信度的概念。
在概率统计中进行参数的区间估计时,会涉及确定置信度和计算置信区间的过程。那置信度到底是什么呢?在科学实验中经过多次抽样(一次抽样有多个数据,一次抽样构建一个置信区间),重复构建多次的置信区间中覆盖总体参数真值的次数所占比例为置信度,也称为置信水平或置信系数。置信度通常有90%、95%和99%,由于95%的置信度计算出来的置信区间具有较高的可信度,而且波动幅度相对不会太大,在区间估计中普遍会将置信度设置为95%。在此置信度下,再由样本统计量对总体参数进行区间估计得到置信区间。
假设样本总体符合正态分布,即满足 。由中心极限定理可知样本均值符合正态分布,计算得到X~(μ,σ^2/n) 。基于确定的置信度查询Z表即标准正态分布表,确认Z值。因此置信区间可确定为[μ-Z σ/√n,μ+Z σ/√n] ,其中 μ 为样本统计量的期望, σ 为样本统计量对样本整体标准差的估计值。
4、协方差是啥,怎么判断协方差正负(滴滴)
参考答案
5、说一下辛普森悖论的例子吧(拼多多)
参考答案
美国加州大学伯克利分校研究生录取数据中,男生录取率为44%,女生录取率为35%,那能依据这一观测数据,认为伯克利分校研究生录取存在性别歧视吗?
Bicke 对此做了研究,他发现,虽然总体上,男生录取率高于女生,但是拆开专业后发现,几乎每个专业均是女生的录取率更高。
为什么你比较总体结论与比较总体各部分的结论会存在差异呢?因为男女生在专业上的分布不一样,男生主要集中在录取率较高的专业,女生主要集中在录取率较低的专业,这样整体看来,就是女生录取率更低了。
#学习路径#