字节数据开发面经

自我介绍

项目里做的是什么工作?建模设计?数据采集?还是其他什么?(项目是sgg)

数仓建模怎么样?聊一聊

那你是主要做指标计算这一块吗?(面试官这个的时候已经知道我对这个sgg的项目没有吃透了,然后就转移其他问题了)

问另一个项目

spark了解地怎么样?说说两种shuffle(hashshuffle没有聊好)

spark底层运行原理说一下

hive掌握得怎么样?

小文件是怎么产生的?(这一点没答好,我没准备到位,就硬扯map切片机制)

那hive是怎么优化小文件问题呢?

你有处理过埋点数据吗?(这一点也没准备)

然后面试官在哀声叹气了

写两题sql吧

行转列

连续登录

你用到了排序函数,聊聊他们的含义吧(rank,dense_rank,row_number)

再聊一聊hive的自定义函数吧

那你说说collect_list

再说说sort_array

好,你还有什么想问的吗?

反问:

用什么架构? 答:hive

collect那里的一些问题

总结:sgg一定一定要吃透,sgg的项目比很多包装的臭鱼烂虾项目好太多了

面试官很好,会缓解我压力,转移话题,我几场面试里最没有压力的一场

数仓知识要补充:建模,分层,数据链路,数据采集

几个经典问题一定要搞透:数据倾斜,小文件问题,sql语句优化等


#面经##大数据面经#
全部评论
过了吗
点赞 回复 分享
发布于 昨天 15:49 广东
uu,想问下base在哪呀
点赞 回复 分享
发布于 昨天 17:54 上海

相关推荐

评论
3
6
分享
牛客网
牛客企业服务