字节大数据暑期面经

更新，当天下午六点约HR面
4.1号  HR面完当晚面试官加微信口头通过（下图）
发面经攒下人品哈,今天刚面完, 不知道结果咋样,等后面流程吧

排版方面后续还会整理,最近比较忙先把问题放出来给准备的同学,目前排版比较乱还请谅解

一面
3月11日晚上7七点 , 预定时间是 45min  实际面了一个小时, 面完20min左右收到了二面的邀请
前面的问题总体突出一个场景
为什么选择大数据这个岗位
了解哪些大数据组件
hdfs 中的文件存储格式
Yarn 的几种调度策略
你知道Hadoop 的具体业务场景吗实际中是怎么搭建并使用的
问了hive与hdfs的区别
hive的内部表和外部表
用hive删除一个表具体发生了那些流程么

sql
题目:
文章id    类型type   作者author
第一问
找出  不同类型的文章有多少
第二问   找出不同类型的作者有多少
一开始用的是  select type, count(distinct author) from t group by type,面试官说没问题,然后问我有没有优化方案  我说有
后来又写了一个比较难的sql(只是比方才那个难但也不是很难)
网页url  点击时间    还有一些用不到的字段  让找出每个网页的最新点击时间
算法题: 两个列表找相同元素（不得不提一嘴数开这个岗位对算法要求真的低）
面试官最后对我的评价是  能力不错,就是缺乏具体的业务场景经验  后面就是反问了
反问之前还问一句:  手上事情少时怎么做, 手上忙不过来了怎么办
然后问了我一句我以为只有小公司才会问的问题
给我3个任务都挺紧的 ,都要这个周末交,这个任务量是完全超出我的能力的,这种情况下你会怎么做

反问
先问了base
如果我要进入这个岗位的话,我需要在哪些方面再好好准备一下及学习的建议
关于岗位的一些内容,具体做什么用什么技术栈等等
面试结束20 分钟约二面

3月24 号二面  东北老哥面的    老哥中间出差时间隔得比较久
总体: 问的很细,很深 ,问底层,问这么做的原因
自我介绍就感到强大的压力:
你介绍一下你大学期间上过的这些课,或者看过的书, 参加过的比赛或者做过的这些项目等等这些里面和大数据相关的有哪些技术,围绕着这些来详细讲一讲吧(总之别人问自我介绍就是说自我介绍一下吧, 这次加了一个超长的前缀,他说完我突然感觉我根本没那么多可讲的)

业务方面:  对于需求方最重要的是什么? 交付方最重要的是什么
范式建模  和维度建模相关的差异性, 区别 ,适用场景
范式建模怎样保证数据一致性的
提到维度建模先想到  哪三个关键词?  (维度表事实表,还有一个是什么?)
问了怎么去设计一个维度表,从什么方面去考虑
范式建模  维度建模  在 olap  oltp  有什么好处/弊端
hadoop一开始只有两个部分,hdfs 文件存储系统和MapReduce计算引擎, 在hadoop 某个更新的版本加了Yarn , 解决什么问题?
MR 和  后来的一些计算引擎比如spark 什么的就主要是 shuffle为重点吧,那你解释一下 mapreduce 的shuffle 都发生了什么过程,我指的是 reduce之前的shuffle
partition 分区是怎么决定数量的, 或者什么时候决定的数量
用java 写MR 程序时分区那里继承子类对象时就做了一个事是什么?(哈希取模)
reduce拉取之前为什么要合并? 不合并行不行 ?
spark刚刚发行的那个版本比 mr 快的两个最主要的原因   :
关于数据倾斜我们也是经常提,  有三种方案, 第一种是方案本身和数据倾斜没有关系但是能缓解数据倾斜带来的问题, 第二种是hive相关的一些参数的配置了解  第三种是spark里面怎么处理数据倾斜的

sql题:
找互关的人
提前说了这是在大数据的范畴中,要考虑性能(暗示不要用大表join)
from_id   to_id
   1              2
   2              1
   3              4
   4              5

反问环节
问了业务还有该怎么学这些,面试官给我推了一本书,这里我也给没看过的同学推荐一下,叫  kimball的维度建模  ,这本书在行业内几乎是指导教材一样的地位了,可我只是第一次听说

大概看了一下前面好多回答不上来的在这本书里都有答案
最后的时候说因为这是带转正的所以按的是校招的标准，不然我也不会问这么严（他好像知道自己问的很难）,暗示要好好准备三面
面了两个小时多

,我感觉不光是我身边没有,这在网上都算是很长时间的面试了,高强度拷打,面完之后脑袋都感觉懵懵的
当天下午三点一直面到五点多,第二天晚上快十一点通知我二面过了约三面,中间一度以为自己凉了

3.27     部门主管  三面
自我介绍
未来职业规划
数据库事务,二范式三范式是怎么实现的
搭建过集群吗?
搭建集群的时候遇到有什么问题
数据结构如  队列,栈,堆链表这些
hive 和spark 引擎的区别
mapreduce 执行流程
算法题  手写快排＋二分查找变种
写完算法后问了各个排序的时间复杂度
又问了怎么计算时间复杂度和空间复杂度
总体30min差不多,很简短
整体流程就是他问一句  我说一堆  听完后他点点头然后问下一句我又说一堆

三面比二面简单太多,问的东西都答下来了,面试官很和蔼,感觉有戏

字数原因先写这么多,本来想把当时所有回答都带上的,目前没那么多时间整理, 需要的可以私信我,有详细介绍当时的回答和正确的回答

许愿OC,球球了

字节大数据暑期面经

全站热榜

创作者周榜