笔试:
1. 排序算法分析讲解
2. 如何query根据单独每个月的收入,得到每个月至今的累计收入(Hive的开窗函数,MySQL使用JOIN&WHERE self join)。
面试:
-
Hadoop能够高性能吞吐的依赖有哪些?(HDFS, MapReduce)
-
Hadoop的完整计算过程,包括Map,Reduce过程、任务调度等。
-
数据资源是怎么Partition的?是什么策略?(3 replicas)
-
Spark常用哪个算子,讲一下原理?(RDD)
-
Spark是依据怎么分stage的?什么是宽依赖、窄依赖?
-
Hive除了Query还用过别的操作吗?
-
什么是数据倾斜问题,场景有哪些?常见的解决方法是什么?
建议:
-
Hadoop, Spark自己动手搭建环境并且总结遇到的问题与解决方法。
-
各个框架各自的优缺点对比,应用场景是什么。
全部评论
(3) 回帖