双非本+2硕,数据研发岗位秋招战况
#秋招# #数仓# #互联网#
总结一下我收到的面试和面试题目吧
总计收到的面试:
腾讯、百度、阿里云、字节、美团、滴滴、科大讯飞、京东
百度提前批一面:
1、自我介绍
2、说一下你在实习中的收获
我主要是从技能和废技能两个层面做的叙述
3、简单概括一下你所做的工作
4、你所接触过的最大的数据量有多大?你是怎么解决这个大数据量数据的处理的?
5、你有一个任务产出很晚,你都怎么排查问题?
6、写两道算法
1)三个sql题,都很简单
2)一个链表排序题(其实很简单,就是我太菜,没写好)
7、说一说你在那边做的一个项目,你承担了什么角色,得到了什么收获
科大讯飞正式批一面:
1、说一说你们部门的数仓怎么分的层?
2、你们在ods层到dwd层的数据做好什么操作吗?
3、你了解的市面上有哪些数仓的分层架构?
4、那我如果不分层,就把很多表的加工逻辑揉到一起会有什么问题?
5、你所接触过的数仓都是基于什么构建的?
6、你们数仓建模的方法是什么?
7、你接触过的建模方法都有哪些?为什么不用别的呢?
8、我有一个用户的信息,里面有信息的更改时间,你怎么把最新的数据取出来?
9、Union和union all的区别是什么?
10、Select * from a left join b on a.c1=b.c1 and b.status=1和select * from a left join b on a.c1=b.c1 where b.status=1的数据有什么区别?
美团一面:
1、自我介绍
2、说一说你在那边都负责什么
3、你怎么判断你哪一个表放在数仓的哪一个层级
4、你一个需求的指标,你怎么判断是在已有的数据资产上面更新还是新建数据资产?
5、了解数据库的三范式建模吗?实际有没有用过?那你们那边主要用什么建模
6、代码:
1)用三范式建模的方式构建学生和成绩表,并将每门课程总成绩最高的学生找出来
2)我有100个随机数,想要分十组,每一组最少需要有2个数,怎么分能让我每组的差距最小
7、开放性问题
1)为什么没在字节留用
2)以后打算在哪里发展
3)说一说你的技术路线规划
8、反问
美团二面:
1、自我介绍
2、实习在那边主要都干什么,结合一个例子说明
3、你们数仓的数据来源都有什么?你知道你们那边的数据抽取的原理是什么吗
4、你说你处理过pb、eb级别的数据,那你平时处理的数据能有多少行
5、你们数仓是怎么分层的?口径封装到dwi层,那你能举个例子吗?粒度有多细
6、说一个你做的工作,并说说怎么把这些表做的分层
7、你做过维表吗
8、你都知道几种事实表
9、Sql题:
1)美团的不同城市的补给站的个数(很简单)
2)一个表有uid、city_id、status、ctime(时间戳),求出每个城市每个user,每天的状态时间。(有点难度,因为要考虑跨天的问题)
字节一面:
1、说一下你在商业化那边做的项目,有什么收获?
(我说了一个项目,我大题的工作内容还有我技术上和非技术上面的收获)
2、你说说技术和业务哪个更重要,你怎么理解的
3、那你理解咱们数仓到底在做什么?
(我说了小公司的反面例子)
4、那你感觉不分层还是不是数仓
引出了《阿里,大数据之路》
5、咱们这边数仓分层的dwi和dwa里面的i和a你知道啥意思吗
6、你理解我们数仓在划分主题和建模的时候是侧重业务还是技术?
辩证看待
7、既然聊到了数仓分层,那你说说数仓分层有什么好处,又有什么坏处?
好处已经说烂了,坏处其实就是(冗余、维护成本、管理成本)
8、范式建模和数仓建模的区别
9、你平时怎么保证维度一致性和指标一致性的?
10、聊一个其他的,你理解特征和指标是什么,有什么区别?那标签呢?
11、聊点技术上的问题:你平时处理数据倾斜怎么做的?你怎么用spark-ui去定位的?结合一个你实际的项目
12、为什么我们用mr计算架构计算的时候很忌讳去写count distinct
13、最后一个sql题
先问我连续登录的问题,我说已经写过好多遍了,换一个题目吧。
然后是这样一个题:
给出一张表(数据量非常大),里面有user_id,timestamp,tag三个字段,找出每个用户最早和最晚的tag(userid和timestamp都是bigint)
这道题其使用开窗函数轻松解决,或者扫两遍表,一次用max、min计算最早最晚时间,再去join原表,但是第一种方案涉及到排序,数据量很大的情况下很耗性能,第二种方案扫了两边表。
其实有一种方案,就是先把ts和tag用cancat做拼接,直接对拼接的字段做min、max,会优先对比ts,顺便带出来tag。然后在外层把拼接字段做split,并用get函数获取ts和tag。
滴滴一面+二面:
新问题:
1、你觉得你在工作过程中怎么和一些团队配合的?出现了问题怎么处理的?
2、数据治理方面的工作
3、Spark的弹性你怎么理解的
4、你觉得你的数仓建设和别人数仓建设对比,怎么评价你的更好一些
滴滴三面:
1、你对滴滴这个公司有什么了解?
2、你知道滴滴有什么业务吗
3、你为什么选择滴滴
我说了平台的前景、平台能给我提供的技术支持、还有薪资待遇
4、你在团队协作上面遇到了什么问题,怎么解决的
5、如果再给你一次机会去做这个项目,你会怎么去做来解决当初遇到的问题
6、你接触过什么olap工具
7、你平时会跟进大数据的新的技术吗
8、你觉得你的缺点是什么
9、你有认真总结过你实习的这段经历吗
10、你觉得你是以技术学习为主还是业务学习为主
11、你的职业规划是什么
12、你觉得数仓工程师应该具备什么技能
阿里云一面:
1、你们那边的广告都是什么形式?都是什么人去投广告?广告投放的大致流程是什么样子的?
2、你在那边做的主要的业务范围是什么?有什么收获吗
3、写了两道sql题,第一道有点难度,第二道很简单
阿里云二面:
1、说一个你实际做项目的时候遇到的技术上的问题,以及你是怎么解决的?
2、spark你知道怎么用日志和ui来排查数据倾斜问题吗
3、给了一个阿里的实际场景题,比较open,看个人的技术积累和知识面吧,这个题差不多问了我四十分钟
4、你理解的数仓的职能是什么
二面我感觉我回答的很好
阿里云三面(交叉面):
主要及时扒了一下我的实习经历,没啥好说的
阿里云hr面:
面完了泡池子,估计就是陪跑了
目前0offer,字节、阿里、华为还在流程中
说一下面试感受以及我对实习的理解吧:总的来说,面试大厂的体验都是很好地,尤其是字节那个面试官还有阿里二面的面试官,其实面试的时候在引导我思考,不问八股(八股真的很没意思),很亲切,而且面试其实也是学习的过程,大家要善于总结和复盘。对于实习的话,我理解就是尽量时间久一些吧,不管是出于对技术的学习也好还是转正也好,实习久了真的学到的会多很多,因为在网上聊了几个只实习了两三个月就跑了的,其实这段时间并没有干什么实质性的任务,我实习了八个月,前四个月跟着我mentor做项目,后面就是自己去对接,而且做了驾驶舱、Q1重点项目,真的很磨练人,而且字节这边实习给实习生的权限很高,只要你想学,真的会收获满满。
最后,也欢迎大家来交流。
更新###华为已经面试完了,二轮技术面+一轮主管面,很顺利,目前泡池子去了,字节推进到3面了,小米一面完事(小米这个面试真的是我体验最差的面试)
总结一下我收到的面试和面试题目吧
总计收到的面试:
腾讯、百度、阿里云、字节、美团、滴滴、科大讯飞、京东
百度提前批一面:
1、自我介绍
2、说一下你在实习中的收获
我主要是从技能和废技能两个层面做的叙述
3、简单概括一下你所做的工作
4、你所接触过的最大的数据量有多大?你是怎么解决这个大数据量数据的处理的?
5、你有一个任务产出很晚,你都怎么排查问题?
6、写两道算法
1)三个sql题,都很简单
2)一个链表排序题(其实很简单,就是我太菜,没写好)
7、说一说你在那边做的一个项目,你承担了什么角色,得到了什么收获
科大讯飞正式批一面:
1、说一说你们部门的数仓怎么分的层?
2、你们在ods层到dwd层的数据做好什么操作吗?
3、你了解的市面上有哪些数仓的分层架构?
4、那我如果不分层,就把很多表的加工逻辑揉到一起会有什么问题?
5、你所接触过的数仓都是基于什么构建的?
6、你们数仓建模的方法是什么?
7、你接触过的建模方法都有哪些?为什么不用别的呢?
8、我有一个用户的信息,里面有信息的更改时间,你怎么把最新的数据取出来?
9、Union和union all的区别是什么?
10、Select * from a left join b on a.c1=b.c1 and b.status=1和select * from a left join b on a.c1=b.c1 where b.status=1的数据有什么区别?
美团一面:
1、自我介绍
2、说一说你在那边都负责什么
3、你怎么判断你哪一个表放在数仓的哪一个层级
4、你一个需求的指标,你怎么判断是在已有的数据资产上面更新还是新建数据资产?
5、了解数据库的三范式建模吗?实际有没有用过?那你们那边主要用什么建模
6、代码:
1)用三范式建模的方式构建学生和成绩表,并将每门课程总成绩最高的学生找出来
2)我有100个随机数,想要分十组,每一组最少需要有2个数,怎么分能让我每组的差距最小
7、开放性问题
1)为什么没在字节留用
2)以后打算在哪里发展
3)说一说你的技术路线规划
8、反问
美团二面:
1、自我介绍
2、实习在那边主要都干什么,结合一个例子说明
3、你们数仓的数据来源都有什么?你知道你们那边的数据抽取的原理是什么吗
4、你说你处理过pb、eb级别的数据,那你平时处理的数据能有多少行
5、你们数仓是怎么分层的?口径封装到dwi层,那你能举个例子吗?粒度有多细
6、说一个你做的工作,并说说怎么把这些表做的分层
7、你做过维表吗
8、你都知道几种事实表
9、Sql题:
1)美团的不同城市的补给站的个数(很简单)
2)一个表有uid、city_id、status、ctime(时间戳),求出每个城市每个user,每天的状态时间。(有点难度,因为要考虑跨天的问题)
字节一面:
1、说一下你在商业化那边做的项目,有什么收获?
(我说了一个项目,我大题的工作内容还有我技术上和非技术上面的收获)
2、你说说技术和业务哪个更重要,你怎么理解的
3、那你理解咱们数仓到底在做什么?
(我说了小公司的反面例子)
4、那你感觉不分层还是不是数仓
引出了《阿里,大数据之路》
5、咱们这边数仓分层的dwi和dwa里面的i和a你知道啥意思吗
6、你理解我们数仓在划分主题和建模的时候是侧重业务还是技术?
辩证看待
7、既然聊到了数仓分层,那你说说数仓分层有什么好处,又有什么坏处?
好处已经说烂了,坏处其实就是(冗余、维护成本、管理成本)
8、范式建模和数仓建模的区别
9、你平时怎么保证维度一致性和指标一致性的?
10、聊一个其他的,你理解特征和指标是什么,有什么区别?那标签呢?
11、聊点技术上的问题:你平时处理数据倾斜怎么做的?你怎么用spark-ui去定位的?结合一个你实际的项目
12、为什么我们用mr计算架构计算的时候很忌讳去写count distinct
13、最后一个sql题
先问我连续登录的问题,我说已经写过好多遍了,换一个题目吧。
然后是这样一个题:
给出一张表(数据量非常大),里面有user_id,timestamp,tag三个字段,找出每个用户最早和最晚的tag(userid和timestamp都是bigint)
这道题其使用开窗函数轻松解决,或者扫两遍表,一次用max、min计算最早最晚时间,再去join原表,但是第一种方案涉及到排序,数据量很大的情况下很耗性能,第二种方案扫了两边表。
其实有一种方案,就是先把ts和tag用cancat做拼接,直接对拼接的字段做min、max,会优先对比ts,顺便带出来tag。然后在外层把拼接字段做split,并用get函数获取ts和tag。
滴滴一面+二面:
新问题:
1、你觉得你在工作过程中怎么和一些团队配合的?出现了问题怎么处理的?
2、数据治理方面的工作
3、Spark的弹性你怎么理解的
4、你觉得你的数仓建设和别人数仓建设对比,怎么评价你的更好一些
滴滴三面:
1、你对滴滴这个公司有什么了解?
2、你知道滴滴有什么业务吗
3、你为什么选择滴滴
我说了平台的前景、平台能给我提供的技术支持、还有薪资待遇
4、你在团队协作上面遇到了什么问题,怎么解决的
5、如果再给你一次机会去做这个项目,你会怎么去做来解决当初遇到的问题
6、你接触过什么olap工具
7、你平时会跟进大数据的新的技术吗
8、你觉得你的缺点是什么
9、你有认真总结过你实习的这段经历吗
10、你觉得你是以技术学习为主还是业务学习为主
11、你的职业规划是什么
12、你觉得数仓工程师应该具备什么技能
阿里云一面:
1、你们那边的广告都是什么形式?都是什么人去投广告?广告投放的大致流程是什么样子的?
2、你在那边做的主要的业务范围是什么?有什么收获吗
3、写了两道sql题,第一道有点难度,第二道很简单
阿里云二面:
1、说一个你实际做项目的时候遇到的技术上的问题,以及你是怎么解决的?
2、spark你知道怎么用日志和ui来排查数据倾斜问题吗
3、给了一个阿里的实际场景题,比较open,看个人的技术积累和知识面吧,这个题差不多问了我四十分钟
4、你理解的数仓的职能是什么
二面我感觉我回答的很好
阿里云三面(交叉面):
主要及时扒了一下我的实习经历,没啥好说的
阿里云hr面:
面完了泡池子,估计就是陪跑了
目前0offer,字节、阿里、华为还在流程中
说一下面试感受以及我对实习的理解吧:总的来说,面试大厂的体验都是很好地,尤其是字节那个面试官还有阿里二面的面试官,其实面试的时候在引导我思考,不问八股(八股真的很没意思),很亲切,而且面试其实也是学习的过程,大家要善于总结和复盘。对于实习的话,我理解就是尽量时间久一些吧,不管是出于对技术的学习也好还是转正也好,实习久了真的学到的会多很多,因为在网上聊了几个只实习了两三个月就跑了的,其实这段时间并没有干什么实质性的任务,我实习了八个月,前四个月跟着我mentor做项目,后面就是自己去对接,而且做了驾驶舱、Q1重点项目,真的很磨练人,而且字节这边实习给实习生的权限很高,只要你想学,真的会收获满满。
最后,也欢迎大家来交流。
更新###华为已经面试完了,二轮技术面+一轮主管面,很顺利,目前泡池子去了,字节推进到3面了,小米一面完事(小米这个面试真的是我体验最差的面试)
全部评论
这么难
佬,滴滴什么时候面的
腾讯啥情况
佬太强了
佬问个问题,字节一面的最后一个你说拼接来优化时间的我没太理解,拼接后不还是要全表排序取最大最小吗那和开窗的区别在哪里…还是说字符串比较会比bigint比较快?但是一般来说字符串比较都会比bigint慢啊
同学好厉害,商业化需要你这样的人才!
牛逼佬 祝oc
相关推荐