字节大数据暑期面经

更新,当天下午六点约HR面
4.1号  HR面完当晚面试官加微信口头通过(下图)
发面经攒下人品哈,今天刚面完, 不知道结果咋样,等后面流程吧

排版方面后续还会整理,最近比较忙先把问题放出来给准备的同学,目前排版比较乱还请谅解

一面
3月11日 晚上7七点 , 预定时间是 45min  实际面了一个小时, 面完20min左右收到了二面的邀请
前面的问题总体突出一个场景
为什么选择大数据 这个岗位
了解哪些大数据组件
hdfs 中的文件存储格式
Yarn 的几种调度策略
你知道Hadoop 的具体业务场景吗 实际中是怎么搭建并使用的   
问了hive与hdfs的区别
hive的内部表和外部表
用hive删除一个表 具体发生了那些流程么      

sql
题目:
文章id    类型type   作者author
第一问
找出  不同类型的 文章有多少
第二问   找出不同类型的作者有多少
 一开始用的是  select type, count(distinct author) from t group by type,面试官说没问题,然后问我 有没有优化方案  我说有
后来又写了一个比较难的sql(只是比方才那个难但也不是很难)
网页url  点击时间    还有一些用不到的字段  让找出每个网页的最新点击时间
算法题: 两个列表找相同元素(不得不提一嘴数开这个岗位对算法要求真的低)
面试官最后对我的评价是  能力不错,就是缺乏具体的业务场景经验  后面就是反问了
反问之前还问一句:  手上事情少时怎么做, 手上忙不过来了怎么办
然后问了我一句 我以为只有小公司才会问的问题 
给我3个任务 都挺紧的 ,都要这个周末交,这个任务量是完全超出我的能力的,这种情况下你会怎么做


反问
先问了base
如果我要进入这个岗位的话,我需要在哪些方面再好好准备一下及学习的建议
关于岗位的一些内容,具体做什么用什么技术栈等等
面试结束20 分钟约二面

3月24 号 二面  东北老哥面的    老哥中间出差时间隔得比较久
总体: 问的很细,很深 ,问底层,问这么做的原因
自我介绍就感到强大的压力:
 你介绍一下你大学期间 上过的这些课,或者看过的书, 参加过的比赛或者做过的这些项目等等这些 里面和大数据相关的 有哪些技术,围绕着这些来详细讲一讲吧(总之别人问自我介绍就是说 自我介绍一下吧, 这次加了一个超长的前缀,他说完我突然感觉我根本没那么多可讲的)

业务方面:  对于需求方最重要的是什么? 交付方最重要的是什么
范式建模  和 维度建模 相关的差异性, 区别 ,适用场景
范式建模怎样保证数据一致性的
提到维度建模 先想到  哪三个关键词?  (维度表事实表,还有一个是什么?)
问了怎么去设计一个维度表,从什么方面去考虑
范式建模  维度建模  在 olap  oltp  有什么 好处/弊端  
hadoop一开始只有两个部分,hdfs 文件存储系统和MapReduce计算引擎, 在hadoop 某个更新的版本加了Yarn , 解决什么问题?  
MR 和  后来的一些计算引擎 比如spark 什么的就主要是 shuffle为重点吧,那你解释一下 mapreduce 的shuffle 都发生了什么过程,我指的是 reduce之前的shuffle  
partition 分区是怎么决定数量的, 或者什么时候决定的数量       
用java 写MR 程序时 分区那里 继承子类对象时 就做了一个事是什么?(哈希取模)
reduce拉取之前为什么要 合并? 不合并行不行 ? 
spark刚刚发行的那个版本 比 mr 快的 两个最主要的原因   :   
关于数据倾斜 我们也是经常提,  有三种方案, 第一种是 方案本身和数据倾斜没有关系但是能 缓解数据倾斜带来的问题, 第二种是hive相关的一些参数的配置了解  第三种是spark里面怎么处理数据倾斜的

sql题:
找互关的人
提前说了这是在大数据的范畴中,要考虑性能(暗示不要用大表join)
from_id   to_id
   1              2
   2              1
   3              4
   4              5

反问环节
问了业务还有该怎么学这些,面试官给我推了一本书,这里我也给没看过的同学推荐一下,叫  kimball的维度建模  ,这本书在行业内几乎是指导教材一样的地位了,可我只是第一次听说 大概看了一下前面好多回答不上来的在这本书里都有答案
最后的时候说因为这是带转正的所以按的是校招的标准,不然我也不会问这么严(他好像知道自己问的很难),暗示要好好准备三面
面了两个小时多,我感觉不光是我身边没有,这在网上都算是很长时间的面试了,高强度拷打,面完之后脑袋都感觉懵懵的
当天下午三点一直面到五点多,第二天晚上快十一点 通知我二面过了  约三面,中间一度以为自己凉了

3.27     部门主管  三面
自我介绍
未来职业规划
数据库事务,二范式三范式是怎么实现的
搭建过集群吗?
搭建集群的时候遇到有什么问题
数据结构 如  队列,栈,堆链表这些
hive 和spark 引擎的区别
mapreduce 执行流程
算法题  手写快排 + 二分查找变种
写完算法后问了各个排序的时间复杂度
又问了怎么计算时间复杂度和空间复杂度
总体30min差不多,很简短
整体流程就是 他问一句  我说一堆  听完后他点点头 然后问下一句我又说一堆 

三面比二面简单太多,问的东西都答下来了,面试官很和蔼,感觉有戏

字数原因先写这么多,本来想把当时所有回答都带上的,目前没那么多时间整理, 需要的可以私信我,有详细介绍当时的回答和正确的回答

许愿OC,球球了
全部评论
佬,互相关注那题,怎么做优化的
1 回复 分享
发布于 03-31 01:53 江苏
我们面的应该是同一个部门 算法都一样
1 回复 分享
发布于 04-01 19:20 广东
佬哪个部门的方便说不😳
点赞 回复 分享
发布于 03-27 21:26 广东
泰强辣佬,光看问题就汗流浃背了
点赞 回复 分享
发布于 03-29 00:54 重庆
mark一下大佬
点赞 回复 分享
发布于 03-31 19:37 浙江
大佬太强了
点赞 回复 分享
发布于 03-31 19:37 浙江

相关推荐

评论
10
34
分享

创作者周榜

更多
牛客网
牛客企业服务