还有同学吗 组里hc挺多的
点赞 评论

相关推荐

1.  简单介绍一下项目2.  在中间层建设中遇到过什么问题3.  数仓中状态的更新是比较及时的,如何记录这些状态,最核心是关心最终的状态还是流转的状态4.  拉链表是什么,怎么实现的,执行过程中怎么解决效率的问题5.  用的什么计算引擎,sql在spark上怎么执行的6.  spark的提交流程7.  uv和pv的含义,计算uv在spark上的运行原理8.  MapReduce的原理,快排的目的是什么,有序的目的是什么,知道每个过程才能知道如何去调优9.  sql转ast是怎么转的10. ast做逻辑执行计划优化做了哪些11. 逻辑执行计划和物理执行计划大概有什么区别12. 写sql过程中有没有遇到过执行时间特别长的,引出数据倾斜相关内容(问的很细,基本所有的都问了)13. 不同数据类型join为什么导致数据倾斜14. mapjoin和正常join的区别,mapjoin原理是什么,怎么实现的15. 加随机数打散,两阶段聚合怎么做的16. new一个线程怎么做,thread和runnable的区别是什么17. java集合类用过哪些(说没怎么用过java,就没再问了)18. sql在不同执行引擎下有什么区别,答有些语法不通用,为什么不通用,如何造成这种问题的19. sql中所有关键字的执行顺序20. a join b where条件写在join里面和join外面 有什么区别21. 4道sql22. 一道mid算法做的是计算引擎调优,一直在问spark底层,顶不住顶不住。当晚挂...
查看20道真题和解析
点赞 评论 收藏
分享
查看53道真题和解析
点赞 评论 收藏
分享
一面:- 飞书,没开摄像头## 项目- 重点了解一下这个离线数仓项目,你可以展开说一下吗?  - 背景,意义,人员组成,整个数据流动过程,我的职责- 你这边主要做的工作内容可以展开讲讲一下吗?  - 我这边主要的工作内容就是针对这个xx主题的两个指标进行拆解和计算。- 它是怎么计算的,可以说明一下吗?  - 我理解其实这两个指标应该都还是有一个**时间维度**  - 你们时间维度又具体是怎么设计的?是天还是周还是月,各种还是各种都有。- 那你这边再具体做了一些数据开发的工作,你可以说一下吗?就比如说你做了哪些表,以及是什么来支撑这个指标的计算的。  - **DWS表的粒度到底是用户粒度还是用户登录行为粒度?**- 就是你自己写Spark或者你自己研究Spark这里面,比如说你有没有遇到过一些比较难的问题,以及是怎么解决。  - 数据倾斜问题  - **那你就这个优化前后它的一个对比的指标是什么样。那它运行速度有变化吗?**场景sql题:- 假设我有一兆的一张表,那学生的成绩表,他有学生ID课程ID以及分数。然后我想计算每一门课程分数前三的学生,把这样的一个信息给拿出来。怎么做呢?  - rank() over(partition by c_id order by score)---二面:- 飞书,开摄像头## 项目- 介绍项目场景、全流程、个人职责- 最终产生的业务价值是什么呢?- 数据出来之后,会你的使用方是谁呢?就是会谁来用这份数据来做什么事- 实时这边有接触吗?  - flink的基本的原理有看过吗?就比如说为什么flink它它适合做什么样的事情,它能解决什么问题?  - 他这里背后的整个技术链会有哪些呢?就是比如说实时数据处理里面- Spark这个task stage和job他们是什么关系?  - 我们可以调整它的task的个数吗?- SparkSQL写得多吗- HiveSQL和SparkSQL逻辑上有什么不一样的?- 成长的规划,你大概是怎么设想的?技术上的- 像那个其实因为现在你接触实时的比较少,那后面在业务上如果有有的有这个诉求对吧?然后你准备怎么弥补这些短板?  - 比如说我们既有工作任务,又要学习你这个你觉得自己的抗压的能力够吗?
查看22道真题和解析
点赞 评论 收藏
分享
牛客网
牛客企业服务