5.9 快手数据研发一面(大数据、数开)
项目为sgg经典离线数仓
1. 自我介绍
2. 项目介绍(难点、亮点)
3. 根据难点亮点提问
4. 数据域是什么,如何划分数据域,为什么这样划分数据域
5. DIM层维度表的设计原则
6. DWD层事实表设计要点
7. mapreduce shuffle流程
8. maptask和reduce task 与哪些因素有关
9. 数据热点(数据倾斜)在哪些场景下出现,如何解决
10. spark是为了解决mapreduce什么问题设计的
11. 手撕sql ,用户关注表有user_id、user_follower_id,求相互关注的用户对
(这里想考察的应该是当数据量大的时候,如何不使用join来求相互关注,因为当时场景给定的id是字符abcd,可以考虑使用concat)
12. 谓词下推是什么
13. 连接条件写在on里和where里有什么区别
14. count(1)和 count(*)的区别
15. count(1)如果其中有Null值,和count(*)一样吗,为什么
16. mapreduce和spark处理distinct去重操作的执行计划以及原理
(下去搜了下,面试官想听的应该是mr在执行distinct时会只用到一个reduce造成大量shuffle这个点)
17. sparksql调优的方法依赖日志诊断,具体不同情况如何根据日志去调优
18. 反问
5.10 更新 流程已结束
双非属鼠又一次倒下了
1. 自我介绍
2. 项目介绍(难点、亮点)
3. 根据难点亮点提问
4. 数据域是什么,如何划分数据域,为什么这样划分数据域
5. DIM层维度表的设计原则
6. DWD层事实表设计要点
7. mapreduce shuffle流程
8. maptask和reduce task 与哪些因素有关
9. 数据热点(数据倾斜)在哪些场景下出现,如何解决
10. spark是为了解决mapreduce什么问题设计的
11. 手撕sql ,用户关注表有user_id、user_follower_id,求相互关注的用户对
(这里想考察的应该是当数据量大的时候,如何不使用join来求相互关注,因为当时场景给定的id是字符abcd,可以考虑使用concat)
12. 谓词下推是什么
13. 连接条件写在on里和where里有什么区别
14. count(1)和 count(*)的区别
15. count(1)如果其中有Null值,和count(*)一样吗,为什么
16. mapreduce和spark处理distinct去重操作的执行计划以及原理
(下去搜了下,面试官想听的应该是mr在执行distinct时会只用到一个reduce造成大量shuffle这个点)
17. sparksql调优的方法依赖日志诊断,具体不同情况如何根据日志去调优
18. 反问
5.10 更新 流程已结束
双非属鼠又一次倒下了
全部评论
是回答的不好挂的吗?还是其他原因
和我之前面试题目差不多
啥时候面的
校友,是日常还是暑期
同 也是类似全是日志调优的问题 压根不太懂😥
你这个问的也太难了,谓词下推有好多在职的数据开发都不知道是什么
加油,看了一眼感觉我日志调优我也答不出来,因为本身就接触不了真正的大数据,根本就没用过,真要答的话我应该会说一下数据倾斜优化吧。。。其他的大多是八股,谓词下推可能我也答不出来
哥们项目让你介绍玩,然后就问难点,亮点是吗,还有其他深问吗
相关推荐
投递快手等公司10个岗位
点赞 评论 收藏
分享