驰骛科技_数开实习_一面

- 腾讯会议，没要求开视频

## 项目

- 没问项目，纯八股

## 八股

- Mapreduce的工作原理

  - 详细讲了三阶段

- Zookeeper的选举原理

  - 只讲了第一次启动，**忘了讲leader挂掉的情况**

- Zookeeper一般用在哪里

  - HA，zookeeper负责监控HA里多个NN的情况（**ZKFC转换NN状态**），一旦NN发生故障，要启动自动故障转移，避免HA出现脑裂情况

- HDFS读写流程

- Spark算子

  - 忘了讲两种算子的作用：
    - Transformation（转换算⼦，即从现有的数据集创建⼀个新的数据集）
    - Action（⾏动算⼦，即在数据集上进⾏计算后，返回⼀个值给 Driver 程序）
  - **还可以延申讲分别有哪些算子，自己用过的算子**

- 讲讲Spark的血缘关系

  - **讲血缘关系应该这样梳理**：

    - 什么是血缘关系：依赖关系反映了 RDD 是如何从其他 RDD 转换而来的，而多个连续的 RDD 的依赖关系，称之为⾎缘关系
    - 为什么要有血缘关系：每个 RDD 记录操作历史，可以根据依赖关系重计算丢失的分区；他是Spark 实现容错和优化计算的重要基础，RDD的弹性一词的依仗也有他
    - 怎么实现的重计算：往前找到宽依赖，宽依赖必有shuffle，有shuffle就有数据落盘，我们就可以避免从数据源开始重新执行计算（顺势提到宽窄依赖）

    - 血缘关系中细分有哪两种：宽窄依赖，然后讲他们俩的区分（宽依赖的父RDD的一个分区的数据会被子RDD的多个分区所依赖，窄依赖的父RDD的一个分区只能被子RDD的一个分区依赖，这也导致窄依赖多分区可以并行计算，而宽依赖不行）

  - 总结：血缘关系是Spark容错恢复的保障之一，也是优化计算的一种方式

    - 有利于数据的重新分布和并⾏处理。通过宽依赖（本质上是通过shuffle），可以将数据按照特定的规则重新分配到不同的节点上进⾏处理，从⽽充分利⽤集群的计算资源。提⾼处理效率，具体而言是以下两点：
    - **满足特定计算需求**：在很多数据处理场景中，需要将具有相同特征的数据集中在一起进行处理。例如，在进行**分组聚合操作**时，需要将相同键的数据分到同一个分区，以便在每个分区内进行聚合计算。宽依赖通过 Shuffle 操作可以实现这种数据的重新分布，将分散在不同节点上的相同键的数据收集到一起，为后续的计算提供便利。
    - **优化数据布局（负载均衡）**：通过重新分布数据，可以使数据在集群中的分布更加均衡，避免某些节点负载过重而其他节点闲置的情况。例如，当数据初始分布不均匀时，通过宽依赖的操作进行 Shuffle，可以将数据均匀地分配到各个节点上，提高集群资源的利用率。

- Kafka原理

  - 只知道使用，并不了解原理，准备和实时的Flink一起学习

- **窗口函数**讲一讲：

  - 排名函数
  - 跨行取值
  - 聚合类

- **Hive中怎么做到⾏转列和列转⾏？**
  - 一下卡住了没答，其实很简单
- 正则表达式知道吗
  - 我只知道去边查边用，不会记规则

全部评论

推荐最新楼层

真行啊你

美团_数据开发(实习员工)

我是5号面的，一面直接oc

不知道要不要去

点赞回复分享

发布于 03-06 09:49 重庆

04-11 22:09

佛山大学大数据开发工程师

科拉奥数据开发一面

说一下数仓项目的架构（离线和实时都问了）说一下数仓分层及其作用DWD层和DWS层的区别事实表有哪些，为什么要设置周期快照事实表说一下ADS层完成的比较难的需求及其实现（离线数仓的）说一下为什么在实时项目中加入Redis作为缓存说一下为什么使用LookUpJoinMapReduce的工作原理Hive怎么调优Flink水位线机制一道HiveSQL：假设有一张用户登录表，如何求出连续三天登录的用户反问：入职主要干啥简历中哪点吸引了你回答的怎么样个人感觉答的不是很好的：说一下ADS层完成的比较难的需求（这里我倒是说了一个，但是感觉面试官好像听得不是很懂的样子QWQ）Hive怎么调优（这个主要说了分组和...

数开小菜鸡__求offer版：hive调优可以从数据倾斜和小文件答。比如数据倾斜，开启mapjoin参数，开启skew-join参数，开启skew-groupby参数等等比如小文件，小文件可能是动态分区插入导致的，开启动态分区参数，并开启动态合并小分区参数; 开启动态识别小文件参数，并设置小文件平均大小的阈值，以及合并后文件的大小等等

查看14道真题和解析

点赞评论收藏

04-02 12:42

门头沟学院测试工程师

找工作就是心理预期一直在降低的过程

从一开始理想在苏杭一带 薪资7、8k双休加班少后来变成 6、7k 加班就加班 但得双休到现在 4、5k我也愿意 城市也不挑了只要给我双休我无所谓了😑每天早上都不愿意醒来 不想面对现实一种空虚感 不知道为什么人要工作昨天试着换ssob号投了自己城市的一些工作很不喜欢在自己城市找工作的感觉 很没边界感动不动就要线下见面 我这种心理压力大的人很容易打退堂鼓哎 其实如果真的不挑的话 和家里人住找份3、4k的工作 也过的不难受了但是有没有人和我一样 真的想逃离自己生长出来的环境 就想去一个新的城市租一个自己的房子 是全新的人生  #0offer是寒冬太冷还是我太菜#  #我的求职思考#  #如果不工作真的会快乐吗#  #求职你最看重什么？#

0offer是寒冬太冷还是我太菜我的求职思考

点赞评论收藏

04-02 21:49

重庆邮电大学大数据开发工程师

美团数据开发暑期实习（一二面凉经）

3.21 一面自我介绍有一个新的业务，你会怎么做？（数仓建模方式）数仓分层有什么好处介绍一下Spark的join方式（broadcast join， shuffle hash join，sort-merge join）shuffle hash join 和 sort-merge join Spark常用的join是哪个？介绍一下MapReduce的执行过程Hive SQL优化星型模型、雪花模型的区别及应用场景介绍项目，项目分层是如何实现的项目的ods层数据是如何得到的，dws层是如何设计的sql : 1、求在线店铺的月累积销售金额 2、求相邻在线店铺的月累积销售金额的差额sum() ove...

OceanRivers：感觉现在的企业是真抽象，找实习生要求要有实习经历（我要是有实习经历还要来找实习吗），这和校招招应届生的要求有啥区别，按这逻辑以后是不是毕业找工作直接要求一年以上工作经验，也不知道是现在行业卷到这地步了还是企业单纯不想花更多资源培养新人，就想着招有工作经验的牛马，入职直接酷酷工作，然后给他发实习生水平的薪资当廉价劳动力