数据分析秋招回顾-Day7: 统计学(Part 2)

作为一个2022届的数据分析岗位的秋招党,在去年的秋招中也成功上岸,在整个过程中也收获结识一群优秀的朋友,大家也都拿到不同大厂的数分offer,创作这个专栏主要是为了分享我们在去年整个秋招过程中如何准备面试,沉淀下来的一些知识点以及一些走过的雷区,希望能够尽量给予未来优秀的“数分人”一些帮助和岗位的资讯。也希望大家能够互相交流行业资讯,积累行业人脉。 欢迎有兴趣的同学加: yz_wxhow (记得添加来自‘  牛客 ’备注哦),也可以关注公众号获取更多资讯:收割鸡

Day7: 统计学知识点总结(part 2)

5、参数估计
定义:参数估计(parameter estimation),统计推断的一种。根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计;
常见点估计方法:矩估计、最小二乘估计、极大似然估计、贝叶斯估计
区间估计:利用已知的抽样分布、利用区间估计与假设检验的联系、利用大样本理论
1) 点估计
a、矩估计
矩估计法的理论依据是大数定律。矩估计是基于一种简单的“替换”思想,即用样本矩估计总体矩
优点:简单易行, 并不需要事先知道总体是什么分布。(根据均值方差来计算未知参数)
缺点:当总体类型已知时,没有充分利用分布提供的信息(有一定随意性)
b、最小二乘估计
对于最小二乘估计来说,最合理的参数估计量应该使得模型能最好地拟合样本数据,也就是估计值与观测值之差的平方和最小。
目标最小化估计值与观测值之差的平方和。Q表示误差平方和,Yi表示估计值,Ŷ i表示观测值
c、极大似然估计
对于最大似然估计来说,最合理的参数估计量应该使得从模型中抽取该n组样本的观测值的概率最大,也就是概率分布函数或者似然函数最大。
2)区间估计
定义:区间估计 = 点估计 ± 边际误差
根据样本求出未知参数的估计区间,并使这个区间包含未知参数的可靠程度达到预定要求(这个预定要求就是个置信度,用上α位分点来体现这个置信度)。
步骤:
参数估计和假设检验的联系:参数估计和假设检验都是样本去估计总体,都是建立在概率基础上的统计,可以相互转换
参数估计和假设检验的区别是:
a.参数估计是用样本统计量估计总体参数的方法;假设检验是先对总体参数提出一个假设,然后利用样本信息去检验这个假设是否成立
b.参数估计是以置信区间(大概率)估计总体参数;假设检验是利用小概率事件是否发生来判断假设是否成立
c.区间估计求得的是求以样本估计值为中心的双侧置信区间,假设检验既有双侧检验,也有单侧检验;
6、 辛普森悖论
定义:在对样本集合进行分组研究时,在分组比较中都占优势的一方,在总评中有时反而是失势的一方,这种有悖常理的现象,就成为 “辛普森悖论”。
实例:
xx学校两个学院男生录取率均高于女生,但该学校女生录取率则高于男生,这个例子便是一典型的辛普森悖论现象
原因:为什么会出现辛普森悖论现象,从上面这个例子可以看到,男生虽然每个学院的录取率都高于女生,但男生中有100个人(5/6的比例)报了录取率较低的法学院,出现了严重的数据数量不平衡,因此导致男生整体的录取率偏低。
另外,录取率这个变量应该跟专业有较大关系,而不同性别的学生报考不同专业的比例不同,性别这个变量是因为跟报考专业相关,才呈现出跟录取率相关的现象,从本质上讲,这个变量设置并不合理。
如何避免辛普森悖论:
辛普森悖论会导致统计上的一些错误结论,要避免掉入辛普森悖论的陷阱,要从一下两方面着手:
1. 进行合理的变量设计,进行合理的变量关系验证
如上述实例,出现辛普森悖论的很大一个原因是由于变量设计不合理,在研究之初就漏掉了“专业”这个重要潜伏变量(,而直接将性别与录取率建立了联系。因此,在进行变量设计时,一是要尽量多查阅文献以了解自变量,因变量及其他重要变量之间的关系,二是积累相关的经验,能够敏锐地察觉到某个变量的重要性。
(这个重要潜伏变量指的是与实验分析的因果都有关系的变量,这一变量的缺失可能会掩盖或颠倒研究变量的原有关系。
比如在录取率这个例子中,专业既与录取率有关,不同专业难度不同,录取率自然有差异,又与性别有关,女生和男生趋向报考的专业不同。因此专业就是一个重要潜伏变量。)
2. 进行科学合理的抽样
在进行抽样调查时应选择合适的抽样方法或多种抽样方法并存,保证抽取的样本处于远离极端范围的中间区域,在进行非比例抽样时,应慎重考虑权重的问题。
拓展知识点(低频、难度较大,选择性掌握)
1、幸存者偏差
定义:幸存者偏差是一种选择偏倚,就是忽略了筛选条件,把经过筛选的结果当成随机结果。
实例:统计结果显示,机翼中弹的飞机生还概率远高于驾驶舱和机尾中弹的飞机。但驾驶舱和机尾中弹的飞机很少回来,基本不在样本之中
如何避免:谨慎进行样本选择,当样本出现严重偏斜时,考虑出现原因及合理性
2、相关性分析(皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数)
定义:相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。常用的相关系数有皮尔森person相关系数、spersman相关系数、肯德尔kendall秩相关系数
皮尔森person相关系数:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差标准差的商。
person相关系数取值区间[-1,1],若person相关系数接近0,无相关性;person相关系数接近-1或+1,有较强相关性
spersman相关系数:采用的是取值等级进行相关性计算,
计算过程:首先对两个变量(X, Y)的数据进行排序,然后记下排序以后的位置(X’, Y’),(X’, Y’)的值就称为秩次,秩次的差值就是上面公式中的,n就是变量中数据的个数,最后带入公式就可求解结果。举例说明,假设我们实验的数据如下:
利用计算出的秩次差的平方代入上述公式进行计算,便可得到spersman相关系数
特点:1. 即便在变量值没有变化的情况下,也不会出现像皮尔森系数那样分母为0而无法计算的情况。另外,即使出现异常值,由于异常值的秩次通常不会有明显的变化(比如过大或者过小,那要么排第一,要么排最后),相对于皮尔森相关系数,斯皮尔曼相关系数对于数据错误和极端值的反应不敏感。
2. 斯皮尔曼相关性系数没有数据条件要求,适用的范围较广,在生物实验数据分析中,尤其在分析多组交叉数据中说明不同组数据之间的相关性时,使用的频率很高。
Kendall相关系数:肯德尔(Kendall)系数又称一致性系数,是表示多列等级变量相关程度的一种方法,也是一种秩相关系数,计算对象是分类变量,适用于两个分类变量均为有序分类的情况。
适用情况:评委对选手的评分(优、中、差等),想看两个(或者多个)评委对几位选手的评价标准是否一致;或者医院的尿糖化验报告,想检验各个医院对尿糖的化验结果是否一致,这时候就可以使用肯德尔相关性系数进行衡量。
因计算公式过于复杂,不予展示
面试问题
1、简述中心极限定理、大数定律(字节、拼多多)
2、假设检验的定义、第一类错误、第二类错误(字节跳动、快手)
3、T检验、Z检验、F检验、卡方检验的定义、适用情况(快手、腾讯、小米)
4、辛普森悖论的定义及实例(腾讯、字节)
5、幸存者偏差现象(腾讯)
6、相关系数的取值范围及相关系数为0的意义(阿里)
7、参数估计有哪些方法
8、点估计和区间估计的区别和联系(字节)
9、极大似然估计是什么(字节)
10、参数估计和假设检验的联系和区别(阿里)

#数据分析##笔试题目##面经##笔经##秋招##学习路径##校招##笔记#
全部评论
这资料也太全面了,真的可以😂
点赞 回复 分享
发布于 2022-05-21 16:52
我觉得没有比数据分析更难的了
点赞 回复 分享
发布于 2022-05-16 13:58

相关推荐

bg:双非本,一段中小厂6个月测开实习今天发这个帖子主要是想聊一聊我秋招以来的一个发展我是在8月底辞职,打算秋招,可是看网上都说金九银十就想着自己就是一个普通本科生,现在九月份都是一些大神在争抢,所以9月份基本上没投,等到了10月份才开始秋招,可是这个时间好像已经有些晚了,今年秋招开启的格外早,提前到了7,8月份,我十月才开始,官网投了很多公司,没有任何一个面试机会,这个情况一直到了十月底才有了第一个面试,当时没有面试经验,所以不出意外的挂了后续就是漫长的投递,但是毫无例外没有面试,没有办法我只能另辟蹊径开始在BOSS上边投递,然后顺便也根据BOSS上边这个公司名称去浏览器搜索看看有没有官网投递渠道,毕竟官网上投递后还是可以第一时间被HR看到的,然后一直不停投递,一开始第一个星期基本上都是投的正式秋招岗位到了第二个星期才开始实习和正式一起投,到十一月底的时候已经沟通了700➕才有一共1个正式的,5个要提前实习的,3个实习的面试,最后结果是过了1个要提前实习的和2个实习的每次面试我都会复盘,发现这些小公司面试官问的五花八门,有的专问基础,有的专问项目,有的啥都问,不过自己也是看出来了一下门道,就是小公司不像大公司面试官那样能力比较强基本上你简历上边的他都会,然后会根据简历来问,小公司面试官他们更多的是看自己会什么,然后看看你简历上边哪些他也是会的然后来问,经过不断的复盘加上背各种各样面试题,到了11月底12月初才有了1个要提前实习的offer还有2个实习的offer,而且薪资待遇对我来说已经很可观了可是啊,人总是这样得了千钱想万钱,我又开始不满现状,但是此时的我面试能力经过这么多面试和复盘已经很强了,然后在十二月份运气爆棚,被极兔和小鹏补录捞起来面试,还有个百度测开的实习面试,这个时候因为有了offer所以感觉有了底气,面试也很自信,最后结果是全部都过了那个时候我感觉自己真的很厉害,我问了极兔那边的HR像我这样的双非本收到offer的在极兔有多少?他告诉我产研岗90%都是硕士,10%里边基本上都是211,985,想我这样的很少很少,那一刻感觉自己超级牛逼,小鹏就更不用说了,最后也是不出意外选择了小鹏所以我就我个人经历想对和我学历履历差不多的牛友一些建议第一:秋招一定要趁早,真到了9,10月,那个时候可能你投的结果可能还不如7,8,11月,第二:最好先拿小公司实习或者正式练练手,提升一下面试能力,我个人觉得因为小公司问的五花八门所以你会更加横向去提升自己能力,而且大公司其实面试没有那么难,除了一些非常卷的岗位,公司大神比较多会问的很难,一般好点的公司都不会问的那么难,他们也知道都是应届生不会要求那么高第三:当有一定能力后,就是坚持了,对于我们这样的学历,没有特别强的履历情况下,就是要抓住提前批和补录的机会,这个时候各方面不会卡的很严,是我们很好很好的一个机会第四:就是运气也是很重要的一部分,不过这个很难去说什么最后祝各位牛友都能收获自己满意的offer😁😁😁
秋招,不懂就问
点赞 评论 收藏
分享
评论
20
162
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务