百度提前批 大数据二面面经

1、spark shuffle过程,越具体越好,细化到组件,map task以及reduce task具体过程
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了,又是怎么拉取的
4、spark 写文件流程?commit流程?
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理?全阶段代码生成?
7、结合之间说的shuffle过程,spark sql是如何实现shuffle的,比如select c,sum(a) from b group by c,根据c分组会产生shuffle,这条语句执行的细节?
8、为什么要看kafka源码?
9、说一下kafka架构
10、说一下kafka生产者如何生产数据,消费者如何消费数据
11、简单说一下LRU怎么实现,要求get和put都为O(1)

共享了,我太菜了
#大数据##面经##百度#
全部评论
问这么难。。。
点赞 回复 分享
发布于 2022-09-01 21:50 浙江
老哥,你二面完多久被共享的啊,我二面完没有消息了
点赞 回复 分享
发布于 2022-09-02 20:47 湖北

相关推荐

1 40 评论
分享
牛客网
牛客企业服务