大数据开发实习-----欢聚(Hago)
一共两轮技术面一轮HR面,第一轮面试hive 问题居多,第二轮hadoop 问题居多,整体来说问题不是很难,方向为数仓。
一面: 11.30下午 牛客网面试 30min
- 自我介绍
- 数仓项目介绍
- 什么是全量表,什么是增量表,以及应用的场景
- 了不了解拉链表,讲一下拉链表如何生成
- 什么是内部表,什么是外部表,有什么区别
- Hive中小文件形成的原因及解决办法
- Hive SQL的优化方法
- 讲一下熟悉的窗口函数及使用
- 三道SQL 题 1. 聚合函数使用,order by+limit 2. sum(if(参数一,参数二,参数三))使用,以及count(null)为0 的考察 3. 一张表两列用户id 数据,求相互关注的用户id
- 反问
二面 12.2下午 腾讯会议面试 18min
- 自我介绍
- 数仓项目介绍
- 分层依据
- 数仓的整体调度如何执行
- 讲一下HDFS流程
- HDFS全称是啥,字母分别代表什么单词(面试官笑着说说问我个简单问题,可是这个D是真没想出来)
- 介绍一下hadoop ,核心组件有哪些,作用分别是什么
- 讲一下Hadoop的shuffle过程
- 讲一下Hadoop提交作业到资源调度的整个流程
- 一些闲聊
三面 12.5 上午 腾讯会议 15min
- 自我介绍
- 对公司了解
- 实习规划
- 实习对团队领导的期待
- 实习时长,到岗时间
- 闲聊
- 反问