三石大数据

2023-11-02 22:20 门头沟学院大数据开发工程师

关注

从spark作业基本运行原理到资源参数调优【优化上篇】

推荐阅读文章列表：大数据开发面试笔记V4.0 || 面试聊数仓第一季 || 小白大数据学习路线

一、Spark作业基本运行原理

我们使用spark-submit 提交一个Spark作业之后，这个作业就会启动一个对应的Driver进程。Driver进程要做的第一件事情，就是向集群管理器申请运行Spark作业需要使用的资源，这里的资源指的就是Executor进程。YARN集群管理器会根据我们为Spark作业设置的资源参数，在各个工作节点上，启动一定数量的Executor进程，每个Executor进程都占有一定数量的内存和CPU core。

在申请到了作业执行所需的资源之后，Driver进程就会开始调度和执行我们编写的作业代码了。Driver进程会将我们编写的Spark作业代码分拆为多个stage，每个stage执行一部分代码片段，并为每个stage创建一批task，然后将这些task分配到各个Executor进程中执行。task是最小的计算单元，负责执行一模一样的计算逻辑（也就是我们自己编写的某个代码片段），只是每个task处理的数据不同而已。一个stage的所有task都执行完毕之后，会在各个节点本地的磁盘文件中写入计算中间结果，然后Driver就会调度运行下一个stage。下一个stage的task的输入数据就是上一个stage输出的中间结果。如此循环往复，直到将我们自己编写的代码逻辑全部执行完，并且计算完所有的数据，得到我们想要的结果为止。

二、资源参数调优

./bin/spark-submit \
  --master yarn-cluster \
  --num-executors 100 \
  --executor-memory 6G \
  --executor-cores 4 \
  --driver-memory 1G \
  --conf spark.default.parallelism=1000 \
  --conf spark.storage.memoryFraction=0.5 \
  --conf spark.shuffle.memoryFraction=0.3 \

num-executors

参数说明：该参数用于设置Spark作业总共要用多少个Executor进程来执行。
参数调优建议：每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适，设置太少或太多的Executor进程都不好。设置的太少，无法充分利用集群资源；设置的太多的话，大部分队列可能无法给予充分的资源。

executor-memory

参数说明：该参数用于设置每个Executor进程的内存。
参数调优建议：每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值，具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少，num-executors乘以executor-memory，是不能超过队列的最大内存量的。

executor-cores

参数说明：该参数用于设置每个Executor进程的CPU core数量。这个参数决定了每个Executor进程并行执行task线程的能力。
参数调优建议：Executor的CPU core数量设置为2~4个较为合适。同样得根据不同部门的资源队列来定，可以看看自己的资源队列的最大CPU core限制是多少，再依据设置的Executor数量，来决定每个Executor进程可以分配到几个CPU core。

driver-memory

参数说明：该参数用于设置Driver进程的内存。
参数调优建议：Driver的内存通常来说不设置，或者设置1G左右应该就够了。

spark.default.parallelism

参数说明：该参数用于设置每个stage的默认task数量，也就是spark作业在各个stage的并行度
参数调优建议：Spark作业的默认task数量为500~1000个较为合适。Spark官网建议的设置原则是，设置该参数为num-executors * executor-cores的2~3倍较为合适。

spark.storage.memoryFraction

参数说明：该参数用于设置RDD持久化数据在Executor内存中能占的比例，默认是0.6。也
参数调优建议：如果Spark作业中，有较多的RDD持久化操作，该参数的值可以适当提高一些，保证持久化的数据能够容纳在内存中。避免内存不够缓存所有的数据，导致数据只能写入磁盘中，降低了性能。但是如果Spark作业中的shuffle类操作比较多，而持久化操作比较少，那么这个参数的值适当降低一些比较合适。

spark.shuffle.memoryFraction

参数说明：该参数用于设置shuffle过程中一个task拉取到上个stage的task的输出后，进行聚合操作时能够使用的Executor内存的比例，默认是0.2。
参数调优建议：如果Spark作业中的RDD持久化操作较少，shuffle操作较多时，建议降低持久化操作的内存占比，提高shuffle操作的内存占比比例，避免shuffle过程中数据过多时内存不够用，必须溢写到磁盘上，降低了性能。

#数据人的面试交流地##大数据开发##大厂#

全部评论

推荐最新楼层

11-22 19:21

上海交通大学产品经理

Offer篇主管人nice，但我劝她据offer

学妹找我聊，她实习的大厂J终于给她转正offer，非常开心哈：部门氛围好，同事关系好，关键是主管人nice，加班有但是还能接受，真想留下来踏踏实实干几年。幸福的烦恼在于，在没有得到转正offer时候，学妹也投了其他大厂的岗位，结果最近另外一个大厂H也发了offer，薪水不错，岗位不错，现在她有些纠结了。聊完后，我劝她据了J的offer，原因听我细说哈。1，关于发展人的发展离不开时代的烙印：在对的时间选择有潜力的赛道（行业）和赛车（公司），最好能在核心部门核心岗位，努力拼搏，锻炼能力，积累经验，跟着团队，公司和行业一起成长，未来的路会越走越宽。她不喜欢大城市的生活方式，未来还是想回到出生的城市有...

毕业求职不EMO 牛客创作赏金赛

点赞评论收藏

分享

11-20 14:18

已编辑

中国地质大学（武汉）后端

今年的校招为什么这么难啊？这招的还是学生吗？

今年的秋招已经进入尾声了，我的感觉是：今年的秋招，难度真的大得离谱。尤其是中间件和高并发场景题的密集轰炸，甚至有些问题已经上升到高级开发甚至架构师的级别了，为什么今年的校招突然变得这么难啊？我想，大概率是因为三四年前，那些 通过大量学习八股文和中间件知识进入企业的学生，如今已经成了面试官。当年他们就是这样准备面试的，脑子里全是中间件和高并发的题目，而现在轮到他们负责招新人时，自然而然也开始用同样的方式去考察求职者。这导致了一个结果：今年的面试题量大而深。往年，企业的面试官们在校招中通常有分寸，知道学校里的学生，即便是 985 的毕业生，他们的实际开发经验也有限，所以不会过度刁难，而是以他们的水...

你觉得哪一届的校招最难？牛客创作赏金赛

点赞评论收藏

分享

10-25 12:05

已编辑

湖南科技大学 Java

难得的HR态度

BOSS上头一次碰到这样的HR，太难得了 #hr#

若梦难了：我有你这简历，已经大厂乱杀了

点赞评论收藏

分享

11-21 22:16

河南农业大学 C++

这是怎么回事啊

牛客410815733号：这是什么电影

查看图片

点赞评论收藏

分享

11-18 08:49

沈阳工业大学研发工程师

机考E卷200分题 - 字符串拼接

题目描述：构成指定长度字符串的个数 (本题分值100) 给定 M（0 < M ≤ 30）个字符（a-z），从中取出任意字符（每个字符只能用一次）拼接成长度为 N（0 < N ≤ 5）的字符串， 要求相同的字符不能相邻，计算出给定的字符列表能拼接出多少种满足条件的字符串， 输入非法或者无法拼接出满足条件的字符串则返回0。 输入描述 给定的字符列表和结果字符串长度，中间使用空格(" ")拼接 输出描述 满足条件的字符串个数 用例1 输入 aab 2 1 输出 2 1 说明 只能构成ab,ba。 用例2 输入 abc 2 1 输出 6 1 说明 可以构成：ab...

大厂原题(全网最全，持续... 牛客创作赏金赛

点赞评论收藏

分享

2 7 评论

招聘动态

字节跳动

2025校园招聘

杉川机器人

2025校园招聘

快手Star

2025届招聘

快手

销售类投递专区

库洛游戏

全站热榜

正在热议

# 25届秋招总结 #

267444次浏览 2246人参与

# 学历or实习经历，哪个更重要 #

44054次浏览 332人参与

# 北方华创开奖 #

23821次浏览 260人参与

# 地方国企笔面经互助 #

2920次浏览 7人参与

# 你觉得专业和学校哪个对薪资影响最大 #

28373次浏览 213人参与

# 选完offer后，你后悔学本专业吗 #

13908次浏览 100人参与

# 0offer是寒冬太冷还是我太菜 #

888497次浏览 7914人参与

# 你最想要的公司福利是？ #

42327次浏览 150人参与

# 查收我的offer竞争力报告 #

20066次浏览 257人参与

# 如何一边实习一边秋招 #

987730次浏览 12610人参与

# 应届生被毁约被毁意向了怎么办 #

28398次浏览 244人参与

# 一觉醒来，我觉醒了超级打工人系统 #

3376次浏览 36人参与

# 没有实习经历，还有机会进大厂吗 #

807451次浏览 13856人参与

# 来聊聊机械薪资天花板是哪家 #

66179次浏览 447人参与

# 面试体验感最好的是哪家？ #

83787次浏览 819人参与

# 机械应届生薪资要多少才合适？ #

12558次浏览 61人参与

# 如果公司降薪，你会跳槽吗？ #

24840次浏览 236人参与

# 如何写一份好简历 #

605550次浏览 8526人参与

# 秋招OC许愿 #

228559次浏览 1881人参与

# 寒假躺平还是提前实习 #

59681次浏览 457人参与

# 你认为第一份工作重要吗 #

5467次浏览 50人参与

牛客网
牛客企业服务