数新智能_数开实习_一面&二面

# 一面

- 电话面

## 面评

- 丰富离线数仓的经验
- 对自己的这个职业的规划是怎么规划的?

## 项目

- 这个项目是你是从0到1参与的吗?
- Hadoop我有参与部署吗

- 开发用的Spark SQL吗

- 在用Hive on Spark的过程中有遇到什么问题吗?怎么解决的

- 数据是怎么怎么来的?

## 八股

- 你对数仓是怎么理解的?就是什么情况下会用到数仓,就算他比如说我正常的数据库啥的也都能用,它有什么比较大的区别,或者它的优势是啥?
  - 数仓的概念
  - 数仓和数据库的比较
- 数据倾斜都有哪些原因产生的,怎么解决?
- SQL的优化有了解过吗
  - 我说的是小文件的优化,应该说谓词下推等sql优化
- 数仓的建模方法有了解过吗
  - 维度建模简单的说一下
  - 有没有尝试过其他的模型
- hadoop什么HDFS读数据的一个流程
  - block默认大小是多大?
- shuffer的一个过那个原理能简单说一下吗?
  - map阶段他都做了哪些事儿呢?
  - 排序放在哪个阶段了?

# 二面

- 无八股,深挖项目亮点,交流课外经历

## 项目

- 这个项目是个什么性质?
- 那你们这个团队有多少人?然后大概分工是怎么分工的?
- 你们在日常使用的过程中有遇到一些问题吗?就是不管是故障,还是说需要去调优什么之类的。
- 执行日常运行过程中有有会有故障什么之类的产生吗?或者问其他问题产生吗?
- 关于本科课外实验室经历聊天
- 那在这个实验室的两年多的时间,对你个人而言有什么影响吗?或者是说取得了什么样的成果?
- 关于本科课外球队经历聊天
- 现在整个AI这块特别火。我不知道你们对你们有没有一些你或者有些感触,或者说对你们在学校的学习有有一些什么影响。
- 使用过什么ai工具,有什么对比区别
全部评论

相关推荐

- 腾讯会议,没要求开视频## 项目- 没问项目,纯八股## 八股- Mapreduce的工作原理  - 详细讲了三阶段- Zookeeper的选举原理  - 只讲了第一次启动,**忘了讲leader挂掉的情况**- Zookeeper一般用在哪里  - HA,zookeeper负责监控HA里多个NN的情况(**ZKFC转换NN状态**),一旦NN发生故障,要启动自动故障转移,避免HA出现脑裂情况- HDFS读写流程- Spark算子  - 忘了讲两种算子的作用:    - Transformation(转换算⼦,即从现有的数据集创建⼀个新的数据集)    - Action(⾏动算⼦,即在数据集上进⾏计算后,返回⼀个值给 Driver 程序)  - **还可以延申讲分别有哪些算子,自己用过的算子**- 讲讲Spark的血缘关系  - **讲血缘关系应该这样梳理**:    - 什么是血缘关系:依赖关系反映了 RDD 是如何从其他 RDD 转换而来的,而多个连续的 RDD 的依赖关系,称之为⾎缘关系    - 为什么要有血缘关系:每个 RDD 记录操作历史,可以根据依赖关系重计算丢失的分区;他是Spark 实现容错和优化计算的重要基础,RDD的弹性一词的依仗也有他    - 怎么实现的重计算:往前找到宽依赖,宽依赖必有shuffle,有shuffle就有数据落盘,我们就可以避免从数据源开始重新执行计算(顺势提到宽窄依赖)    - 血缘关系中细分有哪两种:宽窄依赖,然后讲他们俩的区分(宽依赖的父RDD的一个分区的数据会被子RDD的多个分区所依赖,窄依赖的父RDD的一个分区只能被子RDD的一个分区依赖,这也导致窄依赖多分区可以并行计算,而宽依赖不行)  - 总结:血缘关系是Spark容错恢复的保障之一,也是优化计算的一种方式    - 有利于数据的重新分布和并⾏处理。通过宽依赖(本质上是通过shuffle),可以将数据按照特定的规则重新分配到不同的节点上进⾏处理,从⽽充分利⽤集群的计算资源。提⾼处理效率,具体而言是以下两点:    - **满足特定计算需求**:在很多数据处理场景中,需要将具有相同特征的数据集中在一起进行处理。例如,在进行**分组聚合操作**时,需要将相同键的数据分到同一个分区,以便在每个分区内进行聚合计算。宽依赖通过 Shuffle 操作可以实现这种数据的重新分布,将分散在不同节点上的相同键的数据收集到一起,为后续的计算提供便利。    - **优化数据布局(负载均衡)**:通过重新分布数据,可以使数据在集群中的分布更加均衡,避免某些节点负载过重而其他节点闲置的情况。例如,当数据初始分布不均匀时,通过宽依赖的操作进行 Shuffle,可以将数据均匀地分配到各个节点上,提高集群资源的利用率。- Kafka原理  - 只知道使用,并不了解原理,准备和实时的Flink一起学习- **窗口函数**讲一讲:  - 排名函数  - 跨行取值  - 聚合类- **Hive中怎么做到⾏转列和列转⾏?**  - 一下卡住了没答,其实很简单- 正则表达式知道吗  - 我只知道去边查边用,不会记规则
查看10道真题和解析
点赞 评论 收藏
分享
评论
1
4
分享

创作者周榜

更多
牛客网
牛客企业服务