1.自我介绍 2.问起实习中处理的一些日志字段含义(uid、pids、sid ==>大家可以忽略 可能面试官好奇) 3、除了使用hive、spark。基本统计框架,自己实现一个word统计算法? 我说了类似与mapreducer算法 4、问了MapReduce执行流程以及问了RDD属性和问了一些transformation和action算子 5、hive能读取txt文件吗?以及读取哪些类型文件,若不能该怎么让其能读? 6、各个文件分布在不同的分布式系统中,如何快速的实现某个字段前三? 7、让写一个二叉树最长路径和,返回这个路径和中最大和的那些节点 ...