5.9 快手数据研发一面（大数据、数开）

项目为sgg经典离线数仓
1. 自我介绍
2. 项目介绍（难点、亮点）
3. 根据难点亮点提问
4. 数据域是什么，如何划分数据域，为什么这样划分数据域
5. DIM层维度表的设计原则
6. DWD层事实表设计要点
7. mapreduce shuffle流程
8. maptask和reduce task 与哪些因素有关
9. 数据热点（数据倾斜）在哪些场景下出现，如何解决
10. spark是为了解决mapreduce什么问题设计的
11. 手撕sql ，用户关注表有user_id、user_follower_id，求相互关注的用户对
(这里想考察的应该是当数据量大的时候，如何不使用join来求相互关注，因为当时场景给定的id是字符abcd，可以考虑使用concat)
12. 谓词下推是什么
13. 连接条件写在on里和where里有什么区别
14. count(1)和 count(*)的区别
15. count(1)如果其中有Null值，和count(*)一样吗，为什么
16. mapreduce和spark处理distinct去重操作的执行计划以及原理
（下去搜了下，面试官想听的应该是mr在执行distinct时会只用到一个reduce造成大量shuffle这个点）
17. sparksql调优的方法依赖日志诊断，具体不同情况如何根据日志去调优
18. 反问

5.10 更新流程已结束
双非属鼠又一次倒下了

全部评论

推荐最新楼层

小铭努力找实习

广西民族师范学院大数据开发工程师

哥们项目让你介绍玩，然后就问难点，亮点是吗，还有其他深问吗

点赞回复分享

发布于 2024-05-23 01:17 广西

厂里最弱coder

长沙理工大学数据分析师

加油，看了一眼感觉我日志调优我也答不出来，因为本身就接触不了真正的大数据，根本就没用过，真要答的话我应该会说一下数据倾斜优化吧。。。其他的大多是八股，谓词下推可能我也答不出来

点赞回复分享

发布于 2024-05-17 17:02 湖南

钱某22

山东中医药大学大数据开发工程师

你这个问的也太难了，谓词下推有好多在职的数据开发都不知道是什么

点赞回复分享

发布于 2024-05-14 16:54 上海

shiago

潍坊护理职业学院护士

同也是类似全是日志调优的问题压根不太懂😥

点赞回复分享

发布于 2024-05-14 12:42 河北

WYJ_zzzzzzZ

广州大学 Java

校友，是日常还是暑期

点赞回复分享

发布于 2024-05-14 11:21 广东

荣誉平壤人

金日成综合大学大数据开发工程师

啥时候面的

点赞回复分享

发布于 2024-05-11 18:45 重庆

付海奎

中国地质大学（北京）大数据开发工程师

和我之前面试题目差不多

点赞回复分享

发布于 2024-05-10 23:33 北京

再也不喝可乐了

门头沟学院大数据开发工程师

是回答的不好挂的吗？还是其他原因

点赞回复分享

发布于 2024-05-10 19:01 北京

04-02 21:49

重庆邮电大学大数据开发工程师

美团数据开发暑期实习（一二面凉经）

3.21 一面自我介绍有一个新的业务，你会怎么做？（数仓建模方式）数仓分层有什么好处介绍一下Spark的join方式（broadcast join， shuffle hash join，sort-merge join）shuffle hash join 和 sort-merge join Spark常用的join是哪个？介绍一下MapReduce的执行过程Hive SQL优化星型模型、雪花模型的区别及应用场景介绍项目，项目分层是如何实现的项目的ods层数据是如何得到的，dws层是如何设计的sql : 1、求在线店铺的月累积销售金额 2、求相邻在线店铺的月累积销售金额的差额sum() ove...

OceanRivers：感觉现在的企业是真抽象，找实习生要求要有实习经历（我要是有实习经历还要来找实习吗），这和校招招应届生的要求有啥区别，按这逻辑以后是不是毕业找工作直接要求一年以上工作经验，也不知道是现在行业卷到这地步了还是企业单纯不想花更多资源培养新人，就想着招有工作经验的牛马，入职直接酷酷工作，然后给他发实习生水平的薪资当廉价劳动力