百度提前批 大数据二面面经

1、spark shuffle过程,越具体越好,细化到组件,map task以及reduce task具体过程
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了,又是怎么拉取的
4、spark 写文件流程?commit流程?
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理?全阶段代码生成?
7、结合之间说的shuffle过程,spark sql是如何实现shuffle的,比如select c,sum(a) from b group by c,根据c分组会产生shuffle,这条语句执行的细节?
8、为什么要看kafka源码?
9、说一下kafka架构
10、说一下kafka生产者如何生产数据,消费者如何消费数据
11、简单说一下LRU怎么实现,要求get和put都为O(1)

共享了,我太菜了
#大数据##面经##百度#
全部评论
老哥,你二面完多久被共享的啊,我二面完没有消息了
点赞 回复 分享
发布于 2022-09-02 20:47 湖北
问这么难。。。
点赞 回复 分享
发布于 2022-09-01 21:50 浙江

相关推荐

季桑陌:这怎么看是不是外包啊
点赞 评论 收藏
分享
03-18 09:45
莆田学院 golang
牛客749342647号:佬,你这个简历模板是哪个,好好看
点赞 评论 收藏
分享
评论
1
40
分享

创作者周榜

更多
牛客网
牛客企业服务