字节跳动大数据开发转正实习面经(已OC)
字节整体给我的感觉是不怎么问八股,他们非常想听你的理解是什么,问的很多问题网上都没有答案,高度都很高。
一面(2023.3.22)
- 自我介绍
- 为什么选择从全栈开发转到大数据,为什么会对大数据感兴趣
- 有学习过大数据的一些技术栈或者项目实战么
- 狂问项目(国电的,问的极其极其细)
- 问了电商数仓项目(大概介绍了一下维度建模)
- DWS层都是什么类型的事实表(不知道怎么答,感觉问的很奇怪,就直接答了事务型事实表,其实我感觉它已经不是事实表了,因为到了DWS层,这个表已经和好多维度信息结合了起来,形成了一张表)
- 说一下三种事实表的区别
- 再次问DWS层是周期快照型还是事务型(我依旧坚持说是事务型,说实话真不知道咋答)
- 你知道无事实的事实表吗(我只看了尚硅谷的数仓建模知识,里面木有讲,所以没答上来,阿里大数据之路里面有说这个)
- 星型模型和雪花模型的各自的特点以及优缺点
- 数仓分层的价值在哪,为什么是分5层而不是3层或者2层
- Hive、SparkSQL哪个更熟悉一些(我说Hive更熟悉一些)
- Hive调优方法
- 追问:分桶表相关
- 大表join时,使用SMB join,一个分桶一个没分通,会有优化效果吗
- 一个表分了1000个桶,一个表分了2000个桶,有优化效果吗
- HiveSQL底层执行逻辑(SQL到MR的过程)
- MR的执行过程(MR任务的流程)
- hive.groupby.skewindata 参数调优的原理(分两个mrjob,分两次聚合)
- 追问:第一次聚合是用什么方法打散的
- HiveSQL题(需要生成日期)
- 经典反问
说实话很顶,当时面完感觉自己凉了,面试官贼有想法,他会根据你的回答不断地追问,直到你答不上来,我感觉整个的底都被他挖出来了,不过一面完俩小时后就约了二面。
二面忘记录音了(当时拿到美团offer了,就摆烂了),只能能回忆多少写多少了。
二面(2023.3.30)
- 问了项目
- 为什么选择大数据
- 说一下数据治理相关知识
- 数仓怎么分层
- 星型模型和雪花模型的区别
- 为什么数仓分层
- 介绍一下Flink
- Flink的状态有什么作用
- 你认为平台开发和数据开发的区别在哪里,哪个更有价值
- SQL题:每个部门的最高最低工资
- 整体很开放
4月4号HR面
4月5号OC,然后怕被美团拉黑,就拒绝了(很恐怖,HR清明节还在工作)。