数据分析师高频面试题汇总2

1、简单说一下各种分布之间的关系?(猿辅导)

参考答案

二项分布的极限是泊松分布;几何分布的极限是指数分布;由正态分布导出的几个比较重要的分布有:

● 卡方分布:随机变量X1,X2,X3...相互独立,且X1,,X2,X3...都服从标准正态分布,那它们的平方和服从自由度为n的卡方分布

● t分布:设z服从标准正态分布,X服从自由度为n的卡方分布,那么 服从自由度为n的t分布

● F分布:设随机变量U和V互相独立,且U和V分别服从自由度为n1和n2的卡方分布,那么 服从第一自由度为n1,第二自由度为n2的F分布


2、简述逻辑回归概念(携程)

参考答案

Logistic 回归是二分类任务中最常用的机器学习算法之一,通过使用其固有的 logistic 函数估计概率,来衡量因变量与一个或多个自变量之间的关系。它输出一个 0 到 1 之间的结果。回归过程中使用到了Sigmoid 函数,这是一个 S 形曲线,它可以将任意实数值映射到介于 0 和 1 之间的值,然后使用阈值分类器将 0 和 1 之间的值转换为 0 或 1,最终得到离散结果。

答案解析

Logistic 分布是一种连续型的概率分布,其分布函数和密度函数分别为:

其中,μ 表示位置参数, γ 为形状参数。其分布的形状与正态分布的形状相似,但是尾部更长,所以我们可以使用 Logistic 分布来模拟比正态分布具有更长尾部和更高波峰的数据分布。Sigmoid 函数就是 Logistic 的分布函数在μ=0,γ=1的特殊形式。

对于Logistic模型,考虑如下函数形式:

其中y 为 x 为正例的概率,则 1-y 为 x 为其反例的概率。两者的比值称为几率(odds),指该事件发生与不发生的概率比值,若事件发生的概率为 p。则对数几率:

将y 视为类后验概率估计,重写公式有:

输出Y=1 的对数几率是由输入 x 的线性函数表示的模型,这就是Logistic回归模型。


3、t分布是有什么分布构成的,表达式是什么(猿辅导)

参考答案

由中心极限定理可知,在样本量足够大时,统计量的样本均值符合正态分布。但是当样本量较小时,样本的标准差不能用于估计总体标准差。考虑到小样本量带来额外的不确定性,t分布诞生了,其概率密度函数如下:

t分布中n是自由度,是伽马函数。t 分布类似于正态分布,比正态分布平坦分散,且随其自由度增大趋近于标准正态分布。


4、如何向小朋友们解释正态分布(联易融)

参考答案

如何向小朋友解释正态分布?

答案解析

因为成绩身高等这些数据都是符合大部分在中间,只有极少数分布在极大值或者极小值,画在图中是一个钟型的分布,也就是正态分布。正态分布是生活中最常见的分布,因为根据中心极限定理,不管总体的分布是什么,从均值为a,方差为b的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为a,方差为b/n的正态分布


5、100个人,初始各有100块,每人每分钟随机给别人1块钱,问最后的分布(拼多多)

参考答案

均匀分布:在每个人发钱和得钱的概率及金额完全相等的情况下,最终的结果将是大家的财富值一样。(完全公平情况)

正态分布:根据中心极限定理说明,在适当的条件下,大量相互独立随机变量的均值经适当标准化后依分布收敛于正态分布。房间中的人多次交换金钱后剩余钱数的概率,每次实验均有多个人进行金钱交换。(但此处每个人之间并非独立的,他们手中的财富总值是一个常数)

幂律分布:在每个人发钱和得钱的概率及金额不等时,最终的财富分配是少数人掌握社会中大量的财富。(类似于现实生活中的社会财富分配)

#学习路径#
全部评论
之前看过机器学习一点东西,那个时候就发现不会数学是真不行啊
点赞 回复 分享
发布于 2022-02-10 13:03

相关推荐

头像
11-21 11:39
四川大学 Java
是红鸢啊:忘了还没结束,还有字节的5k 违约金
点赞 评论 收藏
分享
去B座二楼砸水泥地:不过也可以理解,这种应该没参加过秋招
点赞 评论 收藏
分享
联通 技术人员 总包不低于12
点赞 评论 收藏
分享
4 87 评论
分享
牛客网
牛客企业服务