3.上一段实习中的hive/spark调优场景。为什么小表50m数据量你不用map join?你是怎么判断有没有发生数据倾斜的怎么排查的?hive和spark分别看哪些指标?4.你提到了在webUI看shffle write和shuffle read,讲一下分别在干嘛?5.map端为什么要排序?6. map端输出的文件组织形式是什么样的?7.map短的索引说一下, 他是怎么工作的,为什么要索引8. 环形缓冲区了不了解?说一下他的那个阈值高低的影响9. 哪些操作引起shuffle10. spark里的reduce by key和group by key两个算子在实现上的区别并且说一下性能
shuffle原理说一下,map reduce的shuffle和spark的shufflehadoop其他组件你了解哪些?hdfs有哪些部分? secondary namenode的作用是什么?yarn里有哪些部分?resource manager主要干什么工作?yarn的工作流程
hdfs上数据块大小能不能变成10M?
你对hadoop高可用的理解?
mapreduce的过程?
问了一下hdfs的基础,数据存入hdfs的过程,我答的namenode找到datanode
相关推荐