5.9 快手数据研发一面(大数据、数开)

项目为sgg经典离线数仓
1. 自我介绍
2. 项目介绍(难点、亮点)
3. 根据难点亮点提问
4. 数据域是什么,如何划分数据域,为什么这样划分数据域
5. DIM层维度表的设计原则
6. DWD层事实表设计要点
7. mapreduce shuffle流程
8. maptask和reduce task 与哪些因素有关
9. 数据热点(数据倾斜)在哪些场景下出现,如何解决
10. spark是为了解决mapreduce什么问题设计的
11. 手撕sql ,用户关注表有user_id、user_follower_id,求相互关注的用户对
(这里想考察的应该是当数据量大的时候,如何不使用join来求相互关注,因为当时场景给定的id是字符abcd,可以考虑使用concat)
12. 谓词下推是什么
13. 连接条件写在on里和where里有什么区别
14. count(1)和 count(*)的区别
15. count(1)如果其中有Null值,和count(*)一样吗,为什么
16. mapreduce和spark处理distinct去重操作的执行计划以及原理
(下去搜了下,面试官想听的应该是mr在执行distinct时会只用到一个reduce造成大量shuffle这个点)
17. sparksql调优的方法依赖日志诊断,具体不同情况如何根据日志去调优
18. 反问

5.10 更新  流程已结束 
双非属鼠又一次倒下了
全部评论
是回答的不好挂的吗?还是其他原因
点赞 回复 分享
发布于 05-10 19:01 北京
和我之前面试题目差不多
点赞 回复 分享
发布于 05-10 23:33 北京
啥时候面的
点赞 回复 分享
发布于 05-11 18:45 重庆
校友,是日常还是暑期
点赞 回复 分享
发布于 05-14 11:21 广东
同 也是类似全是日志调优的问题 压根不太懂😥
点赞 回复 分享
发布于 05-14 12:42 河北
你这个问的也太难了,谓词下推有好多在职的数据开发都不知道是什么
点赞 回复 分享
发布于 05-14 16:54 上海
加油,看了一眼感觉我日志调优我也答不出来,因为本身就接触不了真正的大数据,根本就没用过,真要答的话我应该会说一下数据倾斜优化吧。。。其他的大多是八股,谓词下推可能我也答不出来
点赞 回复 分享
发布于 05-17 17:02 湖南
哥们项目让你介绍玩,然后就问难点,亮点是吗,还有其他深问吗
点赞 回复 分享
发布于 05-23 01:17 广西

相关推荐

点赞 评论 收藏
分享
10 71 评论
分享
牛客网
牛客企业服务