第一个我感觉就是校验和,chunk是最小单位,这个校验正确就可以保证packet正确 第二个应该是transfomation分为两类,不需要shuffle的不需要考虑这个问题,需要shuffle的下游task会通过心跳机制从appMaster那里得到上游task的block信息,然后再说一下shuffleRdd是怎么存储的,应该是shuffle_id+map_id+reduce_id确定一个rdd 不过我感觉楼主是被故意针对了,想让你过不会问那么难,除非是做框架二次开发
2 1

相关推荐

牛客网
牛客企业服务