欢聚二面大数据应用面经

记几个记得的问题
1、HDFS在写入过程中如何保证packet传输的一致性?
答:提了块写完报告NN,数据队列和确认队列,宕机应该怎么办。但都不是面试官要的,貌似是每个packet传输完如何确认,跟谁报告,怎么报告,要回去翻下权威手册了。
2、spark在RDD转换时如何确认数据块的来源?
答:分RDD由不同分区组成,每个分区对应一个数据块,通过分区索引区分数据块。 但面试官好像不太满意。
3、hive使用spark做计算引擎时,sql语句的转换过程 和mr做计算引擎的区别?
答的很不理想,前面说了hivesql转换为mr的过程,面试第一次遇到这个问题,一下子就蒙了,背八股文的下场。
4、基于yarn集群的任务提交过程
答:源码不拉不拉。
    java一点没问,面完说组件有些弱,还安慰一句不是说淘汰了,还会横向比较的,感觉凉了。
#欢聚集团##秋招##面经##校招##大数据开发#
全部评论
第一个我感觉就是校验和,chunk是最小单位,这个校验正确就可以保证packet正确 第二个应该是transfomation分为两类,不需要shuffle的不需要考虑这个问题,需要shuffle的下游task会通过心跳机制从appMaster那里得到上游task的block信息,然后再说一下shuffleRdd是怎么存储的,应该是shuffle_id+map_id+reduce_id确定一个rdd 不过我感觉楼主是被故意针对了,想让你过不会问那么难,除非是做框架二次开发
2 回复 分享
发布于 2022-01-19 08:54
这就是不想让过
1 回复 分享
发布于 2021-09-24 07:19
感觉权威手册上也没咋说啊
点赞 回复 分享
发布于 2021-09-23 17:18
全是问组件的东西吗 我以为一面都是八股二面可能是问项目多
点赞 回复 分享
发布于 2021-09-23 19:25
我面字节一个架构部门也是,全程问各种组件细节,被虐的很惨😭
点赞 回复 分享
发布于 2021-09-23 22:51
基于yarn的源码提交流程,这个点楼主说了rpc相关的问题吗?如何体现你看了源码呢
点赞 回复 分享
发布于 2021-09-24 07:21
楼主是投递哪里的岗位的?
点赞 回复 分享
发布于 2021-09-24 16:47
看描述,第一个感觉和zk有关,或者HDFS的JournalNode节点应该也行 第二个spark应该和血缘关系有关 第三个还真不知道,学习了😂
点赞 回复 分享
发布于 2021-09-25 13:22
我感觉我找不到工作了
点赞 回复 分享
发布于 2021-10-06 13:37
这个感觉是我看到过的最细节的
点赞 回复 分享
发布于 2021-11-05 08:21
校招吗,怎么框架问这么思呀
点赞 回复 分享
发布于 2022-03-14 20:54
第一问应该要说到packet的chuncksum吧,校验位
点赞 回复 分享
发布于 2022-03-21 09:55
我去 有点深
点赞 回复 分享
发布于 2022-08-09 16:05

相关推荐

头像
11-09 12:17
清华大学 C++
out11Man:小丑罢了,不用理会
点赞 评论 收藏
分享
评论
8
24
分享
牛客网
牛客企业服务