获赞
124
粉丝
23
关注
50
看过 TA
425
杭州电子科技大学
2022
C++
IP属地:上海
暂未填写个人简介
私信
关注
记几个记得的问题 1、HDFS在写入过程中如何保证packet传输的一致性? 答:提了块写完报告NN,数据队列和确认队列,宕机应该怎么办。但都不是面试官要的,貌似是每个packet传输完如何确认,跟谁报告,怎么报告,要回去翻下权威手册了。 2、spark在RDD转换时如何确认数据块的来源? 答:分RDD由不同分区组成,每个分区对应一个数据块,通过分区索引区分数据块。 但面试官好像不太满意。 3、hive使用spark做计算引擎时,sql语句的转换过程 和mr做计算引擎的区别? 答的很不理想,前面说了hivesql转换为mr的过程,面试第一次遇到这个问题,一下...
牛客294457230号:第一个我感觉就是校验和,chunk是最小单位,这个校验正确就可以保证packet正确 第二个应该是transfomation分为两类,不需要shuffle的不需要考虑这个问题,需要shuffle的下游task会通过心跳机制从appMaster那里得到上游task的block信息,然后再说一下shuffleRdd是怎么存储的,应该是shuffle_id+map_id+reduce_id确定一个rdd 不过我感觉楼主是被故意针对了,想让你过不会问那么难,除非是做框架二次开发
投递欢聚集团等公司10个岗位 >
0 点赞 评论 收藏
分享
关注他的用户也关注了:
牛客网
牛客企业服务