滴滴数开秋招记录与迟到二十分钟的面试官

滴滴 (数据开发)-一面
1. Spark的shuffle和MR的shuffle的区别
2. 数据倾斜的处理方法
3. 数据倾斜的定位方法,(sparkwebUI里看stage的执行时间)
4. spark语句的解析方法
5. spark的命令执行过程
6. sql:最大连续登陆用户个数

滴滴(数据开发)-二面
1. 数仓的星型模型雪花模型
2. 数仓的分层架构
3. 场景题,库存快照表的需求如何做,要用到底层哪些原始表
4. 拉链表的写法,更新方法
5. 场景题:现在有一个需求要统计库存的报损率,需要怎么去设计
6. 底层全量表的个数
7. sql:用户留存,三日留存,七日留存

流程体验:断档最差,没有之一,因为是一天连续面,所以可以理解规划上可能出问题。(仍然逆天)一面二面面试官一个迟到十分钟一个迟到二十分钟,一面面试官道歉了然后态度也比较好,二面面试官则一烂到底,然后非要问我那个库存的场景,我说我没接触过不太了解它的业务场景,就让我先想一想,我随便答了几个入库出库盘算(根据常识说的),然后他也不跟我讨论,沉默之后直接下一个话题,我是真的无语了。。。
全部评论
点赞 回复 分享
发布于 2024-12-06 20:12 湖南
心态放好 社会就是这样 加油
点赞 回复 分享
发布于 2024-12-10 10:33 北京

相关推荐

- 腾讯会议,没要求开视频## 项目- 没问项目,纯八股## 八股- Mapreduce的工作原理  - 详细讲了三阶段- Zookeeper的选举原理  - 只讲了第一次启动,**忘了讲leader挂掉的情况**- Zookeeper一般用在哪里  - HA,zookeeper负责监控HA里多个NN的情况(**ZKFC转换NN状态**),一旦NN发生故障,要启动自动故障转移,避免HA出现脑裂情况- HDFS读写流程- Spark算子  - 忘了讲两种算子的作用:    - Transformation(转换算⼦,即从现有的数据集创建⼀个新的数据集)    - Action(⾏动算⼦,即在数据集上进⾏计算后,返回⼀个值给 Driver 程序)  - **还可以延申讲分别有哪些算子,自己用过的算子**- 讲讲Spark的血缘关系  - **讲血缘关系应该这样梳理**:    - 什么是血缘关系:依赖关系反映了 RDD 是如何从其他 RDD 转换而来的,而多个连续的 RDD 的依赖关系,称之为⾎缘关系    - 为什么要有血缘关系:每个 RDD 记录操作历史,可以根据依赖关系重计算丢失的分区;他是Spark 实现容错和优化计算的重要基础,RDD的弹性一词的依仗也有他    - 怎么实现的重计算:往前找到宽依赖,宽依赖必有shuffle,有shuffle就有数据落盘,我们就可以避免从数据源开始重新执行计算(顺势提到宽窄依赖)    - 血缘关系中细分有哪两种:宽窄依赖,然后讲他们俩的区分(宽依赖的父RDD的一个分区的数据会被子RDD的多个分区所依赖,窄依赖的父RDD的一个分区只能被子RDD的一个分区依赖,这也导致窄依赖多分区可以并行计算,而宽依赖不行)  - 总结:血缘关系是Spark容错恢复的保障之一,也是优化计算的一种方式    - 有利于数据的重新分布和并⾏处理。通过宽依赖(本质上是通过shuffle),可以将数据按照特定的规则重新分配到不同的节点上进⾏处理,从⽽充分利⽤集群的计算资源。提⾼处理效率,具体而言是以下两点:    - **满足特定计算需求**:在很多数据处理场景中,需要将具有相同特征的数据集中在一起进行处理。例如,在进行**分组聚合操作**时,需要将相同键的数据分到同一个分区,以便在每个分区内进行聚合计算。宽依赖通过 Shuffle 操作可以实现这种数据的重新分布,将分散在不同节点上的相同键的数据收集到一起,为后续的计算提供便利。    - **优化数据布局(负载均衡)**:通过重新分布数据,可以使数据在集群中的分布更加均衡,避免某些节点负载过重而其他节点闲置的情况。例如,当数据初始分布不均匀时,通过宽依赖的操作进行 Shuffle,可以将数据均匀地分配到各个节点上,提高集群资源的利用率。- Kafka原理  - 只知道使用,并不了解原理,准备和实时的Flink一起学习- **窗口函数**讲一讲:  - 排名函数  - 跨行取值  - 聚合类- **Hive中怎么做到⾏转列和列转⾏?**  - 一下卡住了没答,其实很简单- 正则表达式知道吗  - 我只知道去边查边用,不会记规则
查看20道真题和解析
点赞 评论 收藏
分享
# 一面- 电话面## 面评- 丰富离线数仓的经验- 对自己的这个职业的规划是怎么规划的?## 项目- 这个项目是你是从0到1参与的吗?- Hadoop我有参与部署吗- 开发用的Spark SQL吗- 在用Hive on Spark的过程中有遇到什么问题吗?怎么解决的- 数据是怎么怎么来的?## 八股- 你对数仓是怎么理解的?就是什么情况下会用到数仓,就算他比如说我正常的数据库啥的也都能用,它有什么比较大的区别,或者它的优势是啥?  - 数仓的概念  - 数仓和数据库的比较- 数据倾斜都有哪些原因产生的,怎么解决?- SQL的优化有了解过吗  - 我说的是小文件的优化,应该说谓词下推等sql优化- 数仓的建模方法有了解过吗  - 维度建模简单的说一下  - 有没有尝试过其他的模型- hadoop什么HDFS读数据的一个流程  - block默认大小是多大?- shuffer的一个过那个原理能简单说一下吗?  - map阶段他都做了哪些事儿呢?  - 排序放在哪个阶段了?# 二面- 无八股,深挖项目亮点,交流课外经历## 项目- 这个项目是个什么性质?- 那你们这个团队有多少人?然后大概分工是怎么分工的?- 你们在日常使用的过程中有遇到一些问题吗?就是不管是故障,还是说需要去调优什么之类的。- 执行日常运行过程中有有会有故障什么之类的产生吗?或者问其他问题产生吗?- 关于本科课外实验室经历聊天- 那在这个实验室的两年多的时间,对你个人而言有什么影响吗?或者是说取得了什么样的成果?- 关于本科课外球队经历聊天- 现在整个AI这块特别火。我不知道你们对你们有没有一些你或者有些感触,或者说对你们在学校的学习有有一些什么影响。- 使用过什么ai工具,有什么对比区别
查看22道真题和解析
点赞 评论 收藏
分享
评论
5
12
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客企业服务