数据分析师 面经和知识点总结

我是2021届的应届生,主要投递的是数据分析岗,经过大半年找工作的历程,真心很感谢牛客这个平台,收获到了不少经验和知识。这个帖子主要是我在面试过程中的知识点总结,希望能对还在努力找工作的小伙伴儿有所帮助。

首先,我其实投递过挺多的大厂,但近几年互联网大厂非常的卷,数分岗更是卷中之卷,很多次我面试到3轮却被告知没有hc了,但不管怎样,抛开这些外部因素,不要放弃。
我先总结一下这些大厂面试时的侧重点:
阿里,蚂蚁金服:比较看重编码能力,尤其python和SQL,和业务能力相比,逻辑和算法能力更为重要。所以多刷代码题吧,把简历中做过项目的算法和原理搞透彻,阿里的面试官思路精奇,很可能会寻根究底。
字节:字节的面试官都很随和,都很nice,字节的数据分析更看重你的业务能力和面试时的临场表现,所以一定对app产品,对指标体系的建设,对异常指标的监控等等有一套清晰的思维框架和认知,并且一定要让面试官相信你是热爱这个岗位的。
美团:美团的面试官非常技术导向,我面试的是美团优选,和阿里一样,非常看重你的代码和算法能力,除此之外,一定要对hadoop和数仓要有简单的认知。
京东:京东的面试官思维节奏都非常的快,京东非常注重对用户画像,用户行为分析知识点的考察,非常看重hivesql的能力,而且如果你懂时间序列检测算法,那会是一个很大的加分项。去京东一定要做好没有休息日的准备。
神策:神策非常看重对业务的认知水平和产品能力,包括产品生命周期,产品竞品分析,分析报告的产出等等,除此之外,神策还会很注重考察你的沟通能力和语言表达能力。
猿辅导:猿辅导的数分岗面试流程很标准,面试官都是很漂亮的小姐姐,记住一定要多复习统计学知识。

tips:一般面试完,如果面试官说:谢谢你的时间或者说我们自己内部再讨论一下,再或者像字节这种收到了面试调查问卷,那么大概率是没有通过了,就可以准备其他的面试了。如果面试官说:好的 接下来的流程会有hr联系你,那么潜台词就是你通过了这一轮的面试。



接下来是我总结的数据分析岗的知识点,主要有sql,业务知识,机器学习算法,统计学原理,大数据架构和数仓,python这几部分:

1.sql:
(1) 除了熟练掌握基本的select from where group by having,左右外内连接(左连接求差集),union和union all,if then else,case when end 还要熟练掌握各种聚合函数,如sum,max,count
(2)开窗函数(row_number(), rank(), dense_rank(),lead()) 和over(partirion by order by),并且要准确理解函数的意义
(3)sql 字符串处理函数,round,ceiling,cast,date_format(),转置函数pivot

2.业务知识:
(1)A/B测试+辛普森悖论,对照组实验组的选取;埋点的设置,尤其注意页面访问统计和用户浏览行为的相关指标;留存率的不同时段的分析
(2)日活,月活,gmv的变动分析,这类都可以统归为指标异动分析,没有固定的答案,但要有一套自己的分析体系,重点是要划分好维度和内外部综合分析
(3)为某个app搭建一套指标体系,可以按照标准的人货场回答,也可以按app产品处于不同生命周期的阶段进行回答,思路正确而且完整就ok,当然不同业务类型的app要回答不同的业务指标,如电商,视频,音乐等等
(4)商业变现(广告,增值服务,电商),这个经常会跟产品的生命周期结合,产品的不同阶段需要的引流和关注的用户群体是完全不一样的
(5)归因分析和漏斗转化分析
(6)用户画像(属性,行为,需求偏好)

3.机器学习算法:
(1)k-means: 算法原理,和knn的比较,k值的选取和质心的选择
(2)bagging和boosting,boosting尤其要注意每轮样本数据和分类器权值的修正
(3)决策树,随机森林算法,xgboost: 随机森林要注意样本和特征的随机性,xgboost要和gdbt一起学习 
(4)交叉验证,留一法和k折交叉验证,以及交叉验证的意义;过拟合和欠拟合出现的原因以及解决办法
(5)对异常值和离群点的处理
(6)评估模型的指标,准确率,精确率,recall,f-score,r2

4.统计学原理:
(1)p值的正确理解:原假设为真时所得样本极端结果出现的概率,一旦出现p值,就有理由拒绝原假设,p值越小,拒绝的理由越充分
(2)显著性水平(一个可允许的概率作为判断界限的小概率标准)和置信区间(真实值有一定概率落在测量结果的周围的程度
(3)一类错误和二类错误
(4)大数定理和中心极限定理
(5)假设检验,注意为什么假设检验要用反证法(原假设往往是想要拒绝的假设)

5.大数据架构和数仓
(1)hadoop:
-hdfs(namenode,datanode)和mapreduce(jobtracker和tasktracker),理解每个组件的作用和意义
-mapreduce中对map,shuffle,reduce函数的理解,尤其要注意combine过程
(2)hive:
-hive和mysql的区别
-hive的数据倾斜问题的产生原因,以及如何避免
-hive内部表和外部表
-hive中order by,sort by,distribute by的区别
(3)数仓:
-维表,事实表,宽表的理解
-数仓的分层(ods,dwd,dws)

6.python:
(1)数据结构:列表,元组,字典,集合
(2)python的切片和排序操作

其实python主要还是靠刷题,而且数分岗不同于数据科学岗,对python能力的要求不是那么的高






#职业发展##面经##数据分析师##字节跳动##阿里巴巴##美团##京东##神策数据#
全部评论
lz写的nice呀
2 回复 分享
发布于 2021-07-12 16:52
感谢楼主
1 回复 分享
发布于 2021-11-12 17:01
python那些基础题在哪里刷好一点
1 回复 分享
发布于 2021-08-05 17:15
像lz去面的这些大厂最近还招21届的嘛?投递渠道是什么呢?我也是21届的
1 回复 分享
发布于 2021-07-13 15:16
请问楼主最后拿到了哪些offer呀
1 回复 分享
发布于 2021-07-12 17:08
感谢楼主!现在数分岗位要求年年攀高啊…… 感觉一个人就是一个数据部门
6 回复 分享
发布于 2021-07-12 17:07
楼主,大数据和数仓的知识上哪去学呢,B站或者其他一些关于大数据的学习视频感觉比较偏向开发哪一类的
点赞 回复 分享
发布于 2021-11-29 19:17
感谢楼主的分享~
点赞 回复 分享
发布于 2021-08-23 17:42
很有收获
点赞 回复 分享
发布于 2021-08-19 02:10
感谢楼主分享!
点赞 回复 分享
发布于 2021-08-18 23:01
京东加班很严重吗😂
点赞 回复 分享
发布于 2021-08-18 22:05
想问问楼主 你们也是电话面试嘛
点赞 回复 分享
发布于 2021-08-18 18:25
谢谢楼主,比心,不过问问就是现在秋招也是准备这些吗,腾讯呢
点赞 回复 分享
发布于 2021-08-12 21:23
感谢楼主分享,非科班只学过统计学和时间序列,求问如何系统地学习上面各个板块的知识呢~
点赞 回复 分享
发布于 2021-08-11 16:08
总结的很棒,谢谢
点赞 回复 分享
发布于 2021-08-08 01:43
唉今天面试被说了谢谢你的时间😂😂😂😂😂😂
点赞 回复 分享
发布于 2021-07-25 11:59
牛逼
点赞 回复 分享
发布于 2021-07-21 19:12
感谢楼主分享, 请问考察编码能力是做 leetcode 上面的题吗, 还是怎么考察呢?
点赞 回复 分享
发布于 2021-07-17 22:27
谢谢lz~~~
点赞 回复 分享
发布于 2021-07-13 13:58
感谢楼主,写的超级好,学习了😁
点赞 回复 分享
发布于 2021-07-13 13:32

相关推荐

04-14 17:26
门头沟学院 Java
📍面试公司:柏楚电子(上海)40分钟👜面试岗位:java(不是软开)📖面试问题:两个面试官AB1.自我介绍2.A你那个系统是全栈是吧3.A先问一些基础相关的    数据结构:两个栈实现一个队列 (答了)    计算机:进程与线程  介绍  区别  (答了)    计网:http和https  端口号  (答了)            七层模型介绍  http和https   sql在哪一层  (答了)A让B问项目4.B有一棵树怎么求高度   思路,算法  (树不熟,说了暴力的方法)5.B线程创建方式  (答了)    B介绍线程池  (答了)    B提交到线程池流程  (答了)    B用过哪几种线程池  (主要用的注解+线程池配置)    B什么情况@Async注解失效  (没碰到过)6.B介绍IOC和AOP思想  (答了)    Baop实现数据过滤切片放在哪里  (答了,可能有点问题)    Baop实现双删思路  (答了)    B双删的是啥 (答了)    A听你说用redis对数据进行缓存,怎么判断哪些数据是热数据  (答了)    A什么时候刷新缓存  (答了)7.B你这个项目一都是你做的是吧,登录什么都是你做的是吧    大致流程是什么样的  (答了)    Btoken在那部分给的  (答了)    Bhttp协议中在哪写部分  (没注意,记不得具体的部分)    Btoken是怎么传过来的  (答了)    B每次请求拿过来每次怎么处理  (答了)    Btoken是否永久有效  (答了)      B框架解析出用户信息之后在Controller里是要重新解析吗  (用了框架的,不是很清楚) 8.B整个项目事务是怎么处理的  (答了) 9.B若依主要用来做什么了  (答了)10.B要部署项目思路是什么样的  (答了)11.B事务传播机制  (答了)    BMysql事务默认隔离级别  (答了)    A事务失效的情况   (答了)12.A介绍实习项目    (答了)     A某模块重构相关  (说我不算重构,只能说是改动)     A项目业务  (答了)13.A毕设项目是开源项目还是自己从0到1写的  (答了)14.Agit用过吧  解决提交冲突  (答了)15.ARabbitMQ怎么在项目中使用的  (答了)16.AES在哪用过  (学习过项目中没用)17.AMinIO存了哪些数据  (头像)18.B回到问题15业务,确保资源不会被重复使用,怎么加的分布式锁  具体在哪里上锁  (答了,沟通过程中意识到原来的做法可能有问题,说了改进办法)    B分布式锁是怎么实现的  (答了)反问   秒挂🙌面试体验:两个人面的,感觉面试官毫无准备,草台班子,刚开始A问的还好,后来越问越没有逻辑顺序,两个人想到哪里问哪里,上来拉个基础随便问,一会问基础一会说说项目,看不到作为面试官的专业性,多数问题都答出来了,有的我认为原来有问题的地方也当场想了新思路,面评竟然是深度不够,我感觉问的广度倒是挺广的,也没见啥深度的问题(要成黑子了)
点赞 评论 收藏
分享
04-08 22:11
门头沟学院 Java
美团一面1.点评 介绍下项目,架构,表的设计2.项目是怎么部署的?服务端和客户端是一个单体服务?3.表结构都有哪些?4.使用了redis缓存,redis缓存有哪些使用场景?5.基于Redis保存用户登录token并设计双重拦截器以实现会话保持功能是怎么实现的?6.会话有多少请求量?多少QPS?有哪些redis优化方式去支持大量的会话请求?(100wQPS)除了集群部署还有其他方式吗?基于默认的配置,数据结构,缓存清理?7.Redis服务挂了,会话会不会收到什么影响?应急方案去减少这种影响?主从复制是一种容灾方式,持久化的策略,备份,负载均衡?8.AOF跟RDB相对来说各自的优点和缺点?其他角度,性能,操作的方便性?RDB数据量比较大,生成快照有什么风险?9.超卖怎么实现?乐观锁是怎么实现的?没有用到版本号?锁的用户?10.分布式锁实现一人一单怎么实现的?你锁的是什么?人的维度还是券的维度?11.实现上面这两种方式遇到什么困难?想听解决问题的思路?12.那你了解Redission的实现吗?比原生有哪些优势?13.第二个项目比第一项目亮点在哪?14.消息队列应用在哪些场景?15.RocktMQ有哪些优势?特点?问的是RocktMQ这里面的基础知识?16.高并发使用消息队列会有哪些问题?-》消息积压17.消息积压从其他角度?消费者角度优化逻辑,异步逻辑,增加资源分配18.线程池用在哪里地方?19.线程池使用的逻辑?20.怎么去设置?你的线程池的设计方案?21.线程池核心数可不可以设为0?22.为什么CPU核心数要设置核心数+1,+2?IO密集型要设置核心数*2?23.你提到无界队列,他在使用会有什么问题?24.你有没有JVM参数调优的经验?25.JVM常见垃圾回收算法?26.说说ZGC?27.你的项目用的哪个垃圾收集器?你用的JDK哪个版本?第二次面试被拷打烂了,面试官很好一直引导着说
查看27道真题和解析
点赞 评论 收藏
分享
评论
211
1226
分享

创作者周榜

更多
牛客网
牛客企业服务