欢聚二面大数据应用面经
记几个记得的问题
1、HDFS在写入过程中如何保证packet传输的一致性?
答:提了块写完报告NN,数据队列和确认队列,宕机应该怎么办。但都不是面试官要的,貌似是每个packet传输完如何确认,跟谁报告,怎么报告,要回去翻下权威手册了。
2、spark在RDD转换时如何确认数据块的来源?
答:分RDD由不同分区组成,每个分区对应一个数据块,通过分区索引区分数据块。 但面试官好像不太满意。
3、hive使用spark做计算引擎时,sql语句的转换过程 和mr做计算引擎的区别?
答的很不理想,前面说了hivesql转换为mr的过程,面试第一次遇到这个问题,一下子就蒙了,背八股文的下场。
4、基于yarn集群的任务提交过程
答:源码不拉不拉。
java一点没问,面完说组件有些弱,还安慰一句不是说淘汰了,还会横向比较的,感觉凉了。
#欢聚集团##秋招##面经##校招##大数据开发#