滴滴数据研发日常实习凉经
一面
- 数据仓库认识
- 维度建模之外还有哪些建模,有什么区别
- 项目中数据仓库分了哪几层,为什么要分层
- Hadoop架构,你这些组件中选一个最熟悉的说(这问题也太友好了,我选了MapReduce,说了一下流程)
- 怎么实现分区,环形缓冲区溢写的分区和后续Reduce的分区一样吗
- 环形缓冲区里的快排是怎么实现的,是对数据快排吗
- 简述了一下快排的过程,时间空间复杂度
- 时间复杂度和空间复杂度的区别,原理,怎么计算。举个例子说明。
- Hive的介绍,对Hive的认识,用处
- 项目的数据流向,数据链路搭建
- 两道sql,共享屏幕手撕。一个是每一天最早登录的三个人的信息,第二个是连续登陆问题。
一面下来感受很好,除了面试时候迟到了20分钟左右。整体面试流程还挺顺畅的,那个时空复杂度的计算说的不好,他还举了个例子给我解释。整体回答下来感觉发挥也还行。正好是周末,第二天约了下周一的二面
二面
二面感觉就问题问的非常宽泛,但有的问题又非常细。会具体到一张表里面一个字段的设计
- 项目的主题设计里面,XX表有哪些字段,你是怎么设计这些字段的,设计过程怎么样的。你说市场调研和业务分析,怎么调研怎么分析的。(说实话上来一连串这样问被问懵了)。表的主键是什么,又举例了哪些字段为什么你不放在这张表里,你是怎么考虑的。给你个新的主题你怎么设计
- 新数据来了怎么更新,比如XX表多了一行数据,你怎么实现更新。调度的话要写多少个任务,怎么写
- Hive的优化经验,为什么会出现数据倾斜
- 学习的一些课程,研究课题。能不能扛得住压力,手上还有没有offer,还面试了其它哪几家公司,表现怎么样(说实话真无力吐槽,你问这个问题,我真不知道怎么回答)
- 看没看过技术类书籍,我回答看过阿里的大数据之路。然后开始问里面的建模理解啊等问题,我说时间太长了,记不太清楚了
面到最后来了句基础比较差,回去商量一下给我结果。让我继续面着其它的,到此是寄了。这是第一次二面,感觉确实和一面风格不一样,很少问八股。一般是找一个他感兴趣的点,然后开始追着问,一连串问下去