百度提前批 大数据二面面经

1、spark shuffle过程,越具体越好,细化到组件,map task以及reduce task具体过程
2、你说bypass shuffle是每个executor节点生成对应reduce task数量的结果文件,那mergesort shuffle呢
3、reduce task 如何知道哪些map task完成了,又是怎么拉取的
4、spark 写文件流程?commit流程?
5、spark、mr commit算法不同版本之间的区别
6、spark sql 原理?全阶段代码生成?
7、结合之间说的shuffle过程,spark sql是如何实现shuffle的,比如select c,sum(a) from b group by c,根据c分组会产生shuffle,这条语句执行的细节?
8、为什么要看kafka源码?
9、说一下kafka架构
10、说一下kafka生产者如何生产数据,消费者如何消费数据
11、简单说一下LRU怎么实现,要求get和put都为O(1)

共享了,我太菜了
#大数据##面经##百度#
全部评论
问这么难。。。
点赞 回复 分享
发布于 2022-09-01 21:50 浙江
老哥,你二面完多久被共享的啊,我二面完没有消息了
点赞 回复 分享
发布于 2022-09-02 20:47 湖北

相关推荐

11-08 17:36
诺瓦科技_HR
点赞 评论 收藏
分享
Bug压路:老哥看得出来你是想多展示一些项目,但好像一般最多两个就够了😂页数一般一页,多的也就2页;这些项目应该是比较同质化的,和评论区其他大佬一样,我也觉得应该展示一些最拿手的(质量>数量)😁😁😁专业技能部分也可以稍微精简一些
点赞 评论 收藏
分享
评论
1
40
分享
牛客网
牛客企业服务