腾讯PCG-数据工程 一面
1. 简单介绍一下项目
2. 在中间层建设中遇到过什么问题
3. 数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态
4. 拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题
5. 用的什么计算引擎,sql在spark上怎么执行的
6. spark的提交流程
7. uv和pv的含义,计算uv在spark上的运行原理
8. MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优
9. sql转ast是怎么转的
10. ast做逻辑执行计划优化做了哪些
11. 逻辑执行计划和物理执行计划大概有什么区别
12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)
13. 不同数据类型join为什么导致数据倾斜
14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的
15. 加随机数打散,两阶段聚合怎么做的
16. new一个线程怎么做,thread和runnable的区别是什么
17. java集合类用过哪些(说没怎么用过java,就没再问了)
18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的
19. sql中所有关键字的执行顺序
20. a join b where条件写在join里面和join外面 有什么区别
21. 4道sql
22. 一道mid算法
做的是计算引擎调优,一直在问spark底层,顶不住顶不住。
当晚挂...
2. 在中间层建设中遇到过什么问题
3. 数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态
4. 拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题
5. 用的什么计算引擎,sql在spark上怎么执行的
6. spark的提交流程
7. uv和pv的含义,计算uv在spark上的运行原理
8. MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优
9. sql转ast是怎么转的
10. ast做逻辑执行计划优化做了哪些
11. 逻辑执行计划和物理执行计划大概有什么区别
12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)
13. 不同数据类型join为什么导致数据倾斜
14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的
15. 加随机数打散,两阶段聚合怎么做的
16. new一个线程怎么做,thread和runnable的区别是什么
17. java集合类用过哪些(说没怎么用过java,就没再问了)
18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的
19. sql中所有关键字的执行顺序
20. a join b where条件写在join里面和join外面 有什么区别
21. 4道sql
22. 一道mid算法
做的是计算引擎调优,一直在问spark底层,顶不住顶不住。
当晚挂...
全部评论
请问做完测试题等了多久才面试的?
这个偏数据平台了么
相关推荐
04-23 22:52
华南师范大学 大数据开发工程师 点赞 评论 收藏
分享