前两天进行的三面,玩了三两天有点儿收不住,面的时候不是很在状态。 自我介绍 为什么学大数据 谷歌的三篇论文是否了解,三驾马车GFS,BigTable,MapReduce 研究方向 项目的整个流程 MR的过程,哪个阶段最费时间,环形缓冲区的调优以及什么时候需要调 Flume都有什么组件,channel的特性以及什么时候该用什么类型的channel,除了Flume还有什么数据收集工具,DataX,Sqoop 如何理解Hive,为什么使用Hive Kafka在项目中起到的作用,如果挂掉怎么保证数据不丢失,不使用Kafka会怎样 用户登录表A,字段:user_id,device_id,login_d...