10-21 快手主站数开-日常实习-一面
项目是经典sgg离线数仓,一个月速成的掌握的并不好,还是处女面,以下问题就当给大家一个教训了
1. 你说搭建数据采集平台和业务数据采集平台,这些平台都是用什么搭建的
2. 如果数据本身使用脚本模拟生成的话,整个数据仓库的底层的平台是用什么做的
3. 你这个脚本怎么随机生成数据,是随机的吗
4. 零点漂移问题
5. 前15分钟后15分钟指的是什么
6. 数据仓库的分层是怎么做的
7. ODS为什么不拉过来做加工
8. 怎么理解数据拉过来不做加工
9. 周期快照事实表和累计快照事实表区别是什么
10. 事实表维度表
11. 除了星型模型还有什么模型
12. 拉链表介绍
13. 为什么说拉链表一般比较小(我之前说错了)
14. 拉链表本身也是事实表的一种,如果他比较大,怎么样让查询效率更高
15. DWS层做什么
16. 数据域的划分
17. 活跃度问题
18. K-means聚类,哪三个类,怎么设定
19. 为什么要进行PCA降维,
20. count distinct 在mr怎么运行的
21. count distinct在mr中底层怎么排序
22. 数据倾斜主要在哪几个阶段产生
23.遇到最大的困难是什么
其实不是很难,但是处女面确实发挥的很差,结束面试官准备了sql题都没让我写,寄
--------------------------
已挂
1. 你说搭建数据采集平台和业务数据采集平台,这些平台都是用什么搭建的
2. 如果数据本身使用脚本模拟生成的话,整个数据仓库的底层的平台是用什么做的
3. 你这个脚本怎么随机生成数据,是随机的吗
4. 零点漂移问题
5. 前15分钟后15分钟指的是什么
6. 数据仓库的分层是怎么做的
7. ODS为什么不拉过来做加工
8. 怎么理解数据拉过来不做加工
9. 周期快照事实表和累计快照事实表区别是什么
10. 事实表维度表
11. 除了星型模型还有什么模型
12. 拉链表介绍
13. 为什么说拉链表一般比较小(我之前说错了)
14. 拉链表本身也是事实表的一种,如果他比较大,怎么样让查询效率更高
15. DWS层做什么
16. 数据域的划分
17. 活跃度问题
18. K-means聚类,哪三个类,怎么设定
19. 为什么要进行PCA降维,
20. count distinct 在mr怎么运行的
21. count distinct在mr中底层怎么排序
22. 数据倾斜主要在哪几个阶段产生
23.遇到最大的困难是什么
其实不是很难,但是处女面确实发挥的很差,结束面试官准备了sql题都没让我写,寄
--------------------------
已挂
全部评论
啥bg
请问要先数分数开这类工作我应该学习啥呀
佬,想问一下20和21题答案是啥呀
寄这么快?
我也是快手处女面
这个岗位我面过两次……中间隔了20天,全挂……
相关推荐
点赞 评论 收藏
分享