Keep 大数据开发岗面经

笔试:

1. 排序算法分析讲解 
2. 如何query根据单独每个月的收入,得到每个月至今的累计收入(Hive的开窗函数,MySQL使用JOIN&WHERE self join)。

面试:

1. Hadoop能够高性能吞吐的依赖有哪些?(HDFS, MapReduce)

2. Hadoop的完整计算过程,包括Map,Reduce过程、任务调度等。

3. 数据资源是怎么Partition的?是什么策略?(3 replicas)

4. Spark常用哪个算子,讲一下原理?(RDD)
5. Spark是依据怎么分stage的?什么是宽依赖、窄依赖?
6. Hive除了Query还用过别的操作吗?
7. 什么是数据倾斜问题,场景有哪些?常见的解决方法是什么?

建议:

1. Hadoop, Spark自己动手搭建环境并且总结遇到的问题与解决方法。
2. 各个框架各自的优缺点对比,应用场景是什么。读论文。
全部评论

相关推荐

沉淀一会:**圣经 1.同学你面试评价不错,概率很大,请耐心等待;2.你的排名比较靠前,不要担心,耐心等待;3.问题不大,正在审批,不要着急签其他公司,等等我们!4.预计9月中下旬,安心过节;5.下周会有结果,请耐心等待下;6.可能国庆节前后,一有结果我马上通知你;7.预计10月中旬,再坚持一下;8.正在走流程,就这两天了;9.同学,结果我也不知道,你如果查到了也告诉我一声;10.同学你出线不明朗,建议签其他公司保底!11.同学你找了哪些公司,我也在找工作。
点赞 评论 收藏
分享
评论
点赞
5
分享
牛客网
牛客企业服务