25届数开秋招工作面经
写在前面
以公司为单位,每个公司分享一面二面三面的痛苦拷打过程和自己的不足分析。
字节
一面
聊了50分钟左右吧
1、自我介绍
2、离线和实时数仓的数据来源,项目来源?
2、离线数仓每个层怎么做的 什么作用 自己怎么做的?
3、安全专业为什么找大数据岗位?(不知道咋回。
4、为什么不找实习?
5、离线项目中这些大数据组件你是怎么使用的? hadoop hive datax
6、自驱动项目的话,你是怎么学习这个项目的?项目参与度 环境搭建 你对这个学习项目 有什么改进没有?
7、hive 里的mapreduce 过程?
8、数据建模的标准是什么?
9、hive、spark、flink区别?
10、spark用过吗?
11、实时数仓的项目,对flink的有了解有多少?讲了一下Flink的原理,水位线,容错等
12、 sql题 挺简单的,就是求平均数、最大最小值、TopN
反思
第一次面试感觉到了项目很多地方思考不深入
二面
1、数据仓库分几层
2、为什么要分层 起什么作用
3、数据主题域
4、 物流仓库的数据域 是怎么设计的
5、场景题:小红书建立数仓 会有哪些域 从用户角度 会看到哪些数据域
6、小红书笔记分发平台 需要 建立哪些数据表
7、根据小红书业务表构建数仓怎么构建
8、从用户进入小红书 做哪些事情? 根据过程划分用户域
9、大数据生态系统了解哪些
10、spring @Override @Result
11、 java 重载 重写
12、 mybatis主从表读取
13、mysql 索引 回表
14、mysql 四大特性 三范式
15、三范式和 维度建模区别 和 雪花 的区别
16、yarn的作业提交流程
17、大数据和java更擅长哪一块
18、 算法题简单的 sql题简单的
反思
Java基础 Mysql
三面 已挂
1、项目印象最深的指标
3、left join 和 inner join 区别
4、left outer join 和 left join区别
5、row_number() 和rank()区别
6、mapreduce过程
7、事实表
8、UDF、UDAF、UDTF
9、列存储、行存储(忘了,说了点印象里的
10、你说列存储列少好查询 select * 的话怎么?(没懂啥意思
11、数仓好处
12、度量值是什么
13、为什么做大数据
15、怎么学习大数据的
16、没实习吗
反思
不知道是不是因为昨天发烧了,今天脑子晕晕的,回答的很混乱
美团 秒挂
1、问项目组件
2、lambda架构怎么保证一致性
3、数仓分层,怎么划分数据域的
4、完成了哪些指标
5、多个数据域之间的复用维度
6、建立了哪些事实表
7、fink乱序数据怎么处理
8、行列存储
9、简单算法+连续登录sql
反思
自己的项目有点忘了
阿里 秒挂
1、hadoop、hive介绍
2、数仓分层,每层作用
3、还有几个简单的忘了
3、join查询在单机数据库中底层是怎么实现的
4、数据结构层面排序算法有哪些
5、快排怎么实现的
6、快排时间复杂度
7、项目里面的kettle怎么做的
8、毕设方向是做什么
反思
岗位更青睐有实习的同学
贝壳
一面
1、ArrayList和LinkedList区别
2、Set
3、线程池
4、怎么创建线程
5、线程安全、线程生命周期、volatile原子性
6、分布式ID怎么实现
7、GC
8、mysql事务、事务隔离级别
9、Spring IOC、AOP
10、maven 依赖冲突
11、git merge怎么做
12、代码托管用的什么平台
13、算法题:股票
二面 已挂
1、挖项目难点、亮点,毕设方向,企业落地前景
2、为什么spark能够基于内存计算而mr不能
3、算法题:二叉平衡树