爱写代码的菜菜子

2022-09-19 11:31 已编辑阿里巴巴_数据开发工程师

发布于吉林

关注

屡败屡战的大数据秋招之Spark 面试知识点总结

1. Hadoop 和 Spark的区别说一下？

Hadoop的数据处理单位是block，Spark 提供了可供并行处理的数据抽象RDD
Hadoop 对数据处理只提供了Map和Reduce 两种操作。Spark 提供了两大类算子transformation 和 action，支持的操作更多。
Hadoop 只支持Map->Reduce 的流程。Spark 则依赖DAG 有向无环图的方式来执行Job。速度更快。
Spark 提供了Hadoop 所不支持的cache 和 checkpoint 机制。大大的提高了计算速度和程序可靠性。
Spark 会对Job 划分Stage。同一个Stage 内的task 可以用流水线机制执行，大大提高了速度。
Shuffle 机制：Hadoop 的MapReduce 不支持在线聚合。Spark 采用了类HashMap的结构（三种数据结构）实现了自动聚合功能。Spark 在对Record进行排序的时候可以通过PartitionId 和 key进行排序的方式，Hadoop 只能通过key进行排序

2. 说一下你对RDD 的理解？

RDD是针对数据的分布式数据集，在RDD上的操作会在所有节点统一进行。RDD对它内部的元素具有容错机制。

3. Map 是类似于桶数组的形式，类比说一下RDD 的内部结构你觉得是怎么样的？

RDD 就像一个分布式数组，每个子part 含有相同类型的元素，但是元素可以分布在不同的机器上。

4. 说一下Spark 中 DAG 是如何形成的？

DAG 是有向无环图，其实就是RDD执行的流程。原始的RDD通过一系列的转换操作就形成了DAG有向无环图，任务执行时（执行Action算子时），可以按照DAG的描述，执行真正的计算(数据被操作的一个过程)。一个Spark应用中可以有一到多个DAG，取决于触发了多少次Action。
Spark会根据shuffle/宽依赖使用回溯算法来对DAG进行Stage划分，从后往前，遇到宽依赖就断开，遇到窄依赖就把当前的RDD加入到当前的stage/阶段中。

5. 说一下Spark 持久化机制/缓存机制？

Spark 的缓存机制是一种空间换时间的方法。使用场景为：数据会被多次重复使用。数据量较小可以放在内存空间的情况下可以对RDD 进行缓存。
Spark提供了不同的缓存级别。因为ci'pan

6. 说一下Spark 的checkpoint 机制？

Checkpoint 是Spark 提供的容错机制。适用场景为：应对job 执行失败的情况，应对软硬件故障造成的数据丢失问题。具体的过程是Spark 将RDD 持久化到了分布式文件系统上。
Checkpoint 会切断lineage 血缘关系。既然RDD 都被持久化到HDFS上了，该RDD 不需要通过重新计算再次得到，也就没有必要保存其lineage 了。

7. Spark 持久化机制和checkpoint 机制你觉得区别在哪里？

目的不同：cache 是为了加速计算，也就是加速后续的job。checkpoint 则是为了在job 运行失败的时候能够快速恢复！
存储位置不同：cache 主要使用内存，偶尔使用磁盘存储。checkpoint 为了可靠读写主要采用HDFS 作为存储空间
对lineage 影响不同：cache 对lineage无影响。缓存的RDD 丢失后可以通过lineage 重新计算。如果对RDD 进行 checkpoint，HDFS 因为是可靠存储哎，所以不需要再保存lineage了
应用场景不同：cache 机制适用于会被多次读取，占用空间不是特别大的RDD。checkpoint 机制则是适用于数据依赖关系特别复杂，重新计算代价高的RDD，比如某RDD关联的数据过多、计算链过长、被多次重复使用。

8. 说一下Spark 架构。由哪几个部分构成？

Master 节点、Worker 节点、Executor 执行器、Task 计算任务
Master 节点上常驻Master 进程，该进程负责管理所有的Worker 节点。（分配任务、收集运行信息、监控worker的存活状态）
Worker 节点常驻Worker进程，该进程与Master 节点通信，还管理Spark 任务的执行。（启动Executor，监控任务运行状态）
Executor 执行器。Executor 是一个JVM 进程，是Spark 计算资源的单位。可以运行多个计算任务。
Task Spark 应用会被拆分为多个计算任务，分配给Executor 执行。Task 以线程的方式运行在Executor 中。

9.Spark 和 Flink 和 Storm 的区别说一下？

10. Spark 如何让50台机器，每台运行一个task？

#秋招##大数据开发工程师#

全部评论

推荐最新楼层

门头沟学院 Java

感觉这些问题挺基础的，昨天同程2面，问我 sparkcore中，debug有什么思路？ spark中 10000个用户怎么管理线程？节点负载过高怎么进行配置？我tm..... 直接坐牢半个小时

点赞回复分享

发布于 2022-09-27 12:52 重庆

期会的每一天呜呜

山东大学芯片研发

总结的太好了，感谢分享啊

点赞回复分享

发布于 2022-09-27 09:49 陕西

04-10 10:29

哈尔滨工业大学（深圳） golang

室友女朋友要闹分手，我想说投个实习就老实了

没想到找实习真的能磨练人的意志，最近不是一直在忙着找实习么，室友女朋友要跟她闹分手（不过我看着就是小打小闹，想让男朋友陪陪她那种），原因是总不回消息，我非常理解她，因为这个过程特别痛苦。我们都比较熟了，不忍心他们这样，想着还是劝一劝，我说真没那么多事，一个是我们比较忙，给她看了我们的每天日程，要么在海笔，要么在海测，还有一些重点加粗高亮的为数不多的面试……每天盼着各个公司给我们的消息，她一下就理解了，已老实。实习真的磨练人啊，每天需要主动关注电话微信邮件三件套的，我们能说啥，除了等就是等啊，就只拿一家公司来说，如果我们不理解，就够我们跟公司提好几次分手的了，比如腾讯音乐，看看这坎坷历程：3.1...

托尼听我说：你这个学长好棒了，前几天我加了个内推人，结果是卖课的

实习工作，你找得还顺利吗？

点赞评论收藏

分享

04-08 11:35

已编辑

湖南大学运营

纯外包岗还是要警惕！上海微创忽然裁员近2000人

其实在去年年底，无锡微创就进行了一波裁员，早有风声，只不过这次更加突然。看爆料说，清明假期之前还在给员工培训新工具的使用，“说是节后要换工具，4月6日微软相关的leader全部来公司”，结果节后直接打包走人。截至目前，裁员提供的补偿方案为N+1，如果当场签约再给2000元的补偿。符合中国《劳动合同法》规定的经济补偿下限，很多公司员工在发告别文案，也算是好聚好散吧

投递微软等公司6个岗位 >

点赞评论收藏

分享

02-20 16:25

蚌埠坦克学院安全工程师

26届投小厂实习 VS 备战暑期

26届0实习 java选手bg: 双非本硕 目前研二八股：大致过了一遍算法: hot100项目: 网盘 + 手写spring + 外卖(不在简历上)年前11月份投过实习，大多已读不回，两个面试机会都没过(大概率也是kpi)；我有几个问题想听听大家的意见；首先，我有一个朋友劝我包装一段上去，没有实习经历很难找到实习；对于实习生也没那么严格。我个人有点想，但是又有点怕；其次，现在已经快二月底了，我是立马投小厂实习水一段还是再沉淀沉淀准备暑期(我感觉没有日常实习也很难找到暑期)；第三，麻烦看看我的简历，有哪些可以优化的部分，我的项目、技术栈还有哪些需要打磨的部分。球球大佬们了，随便回答一个都对我很有用，非常感谢；引流: 字节跳动、斗鱼、快手、抖音、淘宝、天猫、京东、拼多多、菜鸟、顺丰#实习，投递多份简历没人回复怎么办##听劝，这个简历怎么改##项目经历怎么写# #简历中的项目经历要怎么写##项目优化#

神哥不得了：神哥来啦~1.建议不要包装，很容易问穿2.没日常也能找到暑期3.简历模板换一下，字体和版式看着好难受，而且最好压缩到一页，技术的倒数第2和3重复啦，项目建议换两个高质量的上去，如果时间够的话，八股就把高频top50的题目多巩固几遍，吃透，注意不要找假高频，这样绝对能找到暑期

实习，投递多份简历没人回复怎么办听劝，这个简历怎么改

点赞评论收藏

分享

02-24 01:06

成都理工大学 Java

Java选手，求指导

打算今年冲一下春招或者秋招，但是现在有点迷茫，不知道接下来做什么了（正在学习算法准备面试题），求各位指导#Java# #春招#

嘎嘎嘎搬砖侠：我工作6年了，还没开发过70个接口，惭愧惭愧

点赞评论收藏

分享

评论

15

73

招聘动态

理想汽车

2025春季校园招聘

26届投递链接合集

26届实习软件笔试必刷题单

招商银行数字金融训练营

火热报名中

携程集团

25届校招+26届实习

字节跳动Tik Tok

26届实习招聘

26届实习求职交流群

26届实习生双选会报名开启

联想

25届校招+26届实习

字节跳动

25届补录&26届实习

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招进度记录 #

28962次浏览 208人参与

# 一觉醒来，秋招难度下降一万倍…… #

58563次浏览 493人参与

# 实习进度记录 #

27952次浏览 208人参与

# 诺瓦星云求职进展汇总 #

186543次浏览 1589人参与

# 软开人，说说你的烦心事 #

32480次浏览 169人参与

# 地平线求职进展汇总 #

45714次浏览 358人参与

# 校招求职有谈薪空间吗 #

127755次浏览 1811人参与

# 秋招签约后的心态变化 #

71844次浏览 785人参与

# 硬件人绝对不能踩的坑 #

54947次浏览 727人参与

# 参加完秋招的机械人，还参加春招吗？ #

37384次浏览 440人参与

# 秋招感动瞬间 #

18193次浏览 170人参与

# 找工作如何保持松弛感？ #

48651次浏览 756人参与

# 初创公司值得加入吗？ #

19082次浏览 164人参与

# 我在牛客求捞 #

36197次浏览 195人参与

# 大疆今年的机械笔试难吗？ #

39015次浏览 438人参与

# 哪些公司校招卡第一学历 #

52069次浏览 196人参与

# 工作经验重要还是工资重要？ #

49796次浏览 624人参与

# 软开人，秋招你打算投哪些公司呢 #

82520次浏览 856人参与

# 新凯来求职进展汇总 #

24220次浏览 77人参与

# 机械人，你会为了哪家公司违约？ #

58884次浏览 269人参与

牛客网
牛客企业服务