百度提前批 大数据二面面经
1、spark shuffle过程,越具体越好,细化到组件,map task以及reduce task具体过程
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了,又是怎么拉取的
4、spark 写文件流程?commit流程?
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理?全阶段代码生成?
7、结合之间说的shuffle过程,spark sql是如何实现shuffle的,比如select c,sum(a) from b group by c,根据c分组会产生shuffle,这条语句执行的细节?
8、为什么要看kafka源码?
9、说一下kafka架构
10、说一下kafka生产者如何生产数据,消费者如何消费数据
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了,又是怎么拉取的
4、spark 写文件流程?commit流程?
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理?全阶段代码生成?
7、结合之间说的shuffle过程,spark sql是如何实现shuffle的,比如select c,sum(a) from b group by c,根据c分组会产生shuffle,这条语句执行的细节?
8、为什么要看kafka源码?
9、说一下kafka架构
10、说一下kafka生产者如何生产数据,消费者如何消费数据
11、简单说一下LRU怎么实现,要求get和put都为O(1)
共享了,我太菜了
#大数据##面经##百度#