字节数据开发面经
自我介绍
项目里做的是什么工作?建模设计?数据采集?还是其他什么?(项目是sgg)
数仓建模怎么样?聊一聊
那你是主要做指标计算这一块吗?(面试官这个的时候已经知道我对这个sgg的项目没有吃透了,然后就转移其他问题了)
问另一个项目
spark了解地怎么样?说说两种shuffle(hashshuffle没有聊好)
spark底层运行原理说一下
hive掌握得怎么样?
小文件是怎么产生的?(这一点没答好,我没准备到位,就硬扯map切片机制)
那hive是怎么优化小文件问题呢?
你有处理过埋点数据吗?(这一点也没准备)
然后面试官在哀声叹气了
写两题sql吧
行转列
连续登录
你用到了排序函数,聊聊他们的含义吧(rank,dense_rank,row_number)
再聊一聊hive的自定义函数吧
那你说说collect_list
再说说sort_array
好,你还有什么想问的吗?
反问:
用什么架构? 答:hive
collect那里的一些问题
总结:sgg一定一定要吃透,sgg的项目比很多包装的臭鱼烂虾项目好太多了
面试官很好,会缓解我压力,转移话题,我几场面试里最没有压力的一场
数仓知识要补充:建模,分层,数据链路,数据采集
几个经典问题一定要搞透:数据倾斜,小文件问题,sql语句优化等