网易 云音乐 大数据研发
网易一面
spark源码提交了多少行
数据倾斜,怎么定位、怎么解决(这个问题挺重要的,阿里三轮技术面都被问了)
mapreduce过程
spark shuffle(三种),各种使用的场景,优势
spark排序实现流程,reduce端怎么实现的
hashpartitioner与rangePartitioner的实现,顺带讲了一下水塘抽样
spark有哪几种join,使用场景,以及实现原理
画一个yarn架构图,讲一下通信流程
hdfs数据读取流程,实现原理
就记得这些了
网易二面
先说了之前提交的spark源码
谈了一下项目
dagschedule、taskschedule、schedulebankend实现原理
spark join实现
宽依赖、窄依赖
用scala写了一个word count,然后一个sql场景题目
jvm模型,gc算法
其他的记不得了,和这个面试关主要在谈spark源码
hr面
谈谈学校、爱好、自我评价。。。最后问有多少hc。。。
#网易#