【春招】美团-数仓-一面-二面-hr面(已offer)
一面 0322 46min
- 接触的大数据技术栈都有什么?
- Spark和MapReduce之间的关系是什么?
- Spark中的DAG是怎么生成的?是DGAScheduler生成的DAG
- Spark-submit之后有什么过程?
- 从提交sql到解析,这是谁完成的?是Driver还是Application?
- Driver端什么情况会OOM?
- Executor端什么情况会OOM?
- 你觉得Spark和Flink最主要的差别在哪里?
- 大规模并行处理MPP了解吗?Presto了解吗?
- Hadoop包含哪几个部分?
- 实习中数据流量应该很大,大规模数据计算的稳定性是通过什么来保障的?
- MapReduce和Spark的技术选型?有没有去了解过这两个差异?
- 你觉得数据越来越大是用Spark好还是MR好?
- 节假日流量是怎么处理的?
- 你对大数据了解多少?
- 你认为大数据的岗位分为几个?
- 你对大数据的工作内容有多少理解?你实习的工作内容?
- 你在做的产品是做什么用?
- 数据治理做的哪些?存储治理做的哪些?
- 如果A模型和B模型相似,A表4个字段中3个和B中相似,此时A下游200个任务,B下游300个任务,怎么去下掉A?
- 相似模型怎么识别?相似模型很多吗?
- 相似模型有通过整个链路吗?
- 指标治理和命名治理怎么做?比如A模型和B模型中有同义不同名指标,怎么做?
- 有没有衡量过切换下游指标的成本和收益?
SQL题:
- 一张流量表。有uid和访问时间戳。需要找到用户的最大连续访问天数。
- 一张流量表。有uid和upid,按照时间分区,想要计算主播的次日留存的数量。
- 你觉得你写的代码运行可能会存在什么问题?
- 为什么说会出现数据倾斜?
- 那怎么解决呢?
- 有没有接触过业务?有没有接触过需求和产品?
- 你觉得技术和业务之间的关系是什么?
二面 0330 1h
- 讲一下你做的产品的技术方案?
- 怎么解决你说的模糊查询的算法?
- 讲一个你参与的项目?
- 怎么样得到的方案?比如字段的打平以及为什么要这么做?
- 怎么保证中间表打平的字段是稳定的?假如以后业务要变化,这怎么处理?
- 半年的时间,你觉得中间表变更的快吗?
- 做完这个项目有没有什么收获?从学术界到业界
- 有没有什么遗憾或者想做的事情?
- 我们一定会受到身边人的影响,你怎么去批判性的判断身边人的言论?
- 你自己擅长哪些技术栈?
- 用的Spark版本是多少?
- 你觉得Spark 3.0最好的特性是什么?
- AQE默认是打开的吗?
- 如果当前数据倾斜,什么时候开AQE,什么时候关掉AQE?
- 什么时候数据倾斜是自己可以处理的?
- 字节或者阿里这类,都会对Spark进行二次开发,Spark有没有对什么算子进行优化?
- 简单介绍一下Shuffle Join和大表和大表的Merge Join有什么差异?(其实Shuffle Join应该是方式,Merge Join应该是算法?)
- Spark的OOM报错,你怎么排查这个问题?
- 如果Execution Memory放不下OOM,一般会有哪些场景?
- Flink需要动态去调优调参,有没有既定的规则去调优?
- Flink的反压是什么?
- Flink对于反压的优化是什么?
- 你觉得数据治理是做什么?你对数据治理里面这么多方向感兴趣的是什么?
- 埋点可能会很混乱,不用的埋点也还在上传,有的埋点可能很稀疏,那怎么对埋点表存储进行优化?
- DAU的下一层是什么?B端和C端不同的视角维度?
- 介绍一下曾经的团队?
- 团队中的人哪个是你的榜样?
- 你怎么样去锻炼总结抽象的能力?怎么从他身上学到这个能力?
0407 offer