时间:3月3日1.自我介绍2.说一下熟练到不熟练的技术栈(编程语言和框架)3.spark和hadoop MR两者的区别 ,spark相比hadoop的缺点4.spark内存有500G,数据量有一个T,那spark能不能处理这个数据5.讲讲宽窄依赖、stage怎么划分的6.常用的转换算子和action算子有哪些,reducebykey是action算子吗,和groupbykey有什么区别7.解决数据倾斜的方式 加前缀怎么加8.spark的OOM都是什么原因导致的9.spark的executor内存分成哪几部分 spark.memory.fraction=0.6是控制什么的 10.聊聊广播变量 什么时候广播11.两个sql题,比较简单反问更新 3.7二面挂 回答的不好1.hive的元数据管理2.怎么保证数据一致性3.怎么做数据治理4.怎么把天调度任务做到小时更新 3.10 被捞 晚点更新面经#数据开发工程师面经# #腾讯#