老欧讲职场

02-13 18:35 字节跳动_大数据工程师

关注

大数据工程师面试题 - Spark 调优（九）

我是大数据欧老师，曾在互联网某大厂任大数据负责人，从业大数据领域近 10 年，全网粉丝 5000+，从很多候选人的面试和咨询中复盘了大数据工程师的面试全流程，如果你有求职大数据工程师的计划，欢迎找我聊一聊！

数据倾斜的解决方案

解决方案八：参数调优

shuffle相关参数调优

以下是Shffule过程中的一些主要参数，这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。

Spark 参数优化详解

以下列举了Spark参数调优的一些关键参数及其优化建议：

1. spark.shuffle.file.buffer (默认值：32k)

该参数用于设置 shuffle write task 的 BufferedOutputStream 的 buffer 缓冲大小。合理增大该参数的值，可以有效减少磁盘IO次数，进而提升性能。

2. spark.reducer.maxSizeInFlight (默认值：48m)

该参数用于设置 shuffle read task 的 buffer 缓冲大小。合理增加该参数的值可以减少网络传输的次数，进而提升性能。

3. spark.shuffle.io.maxRetries (默认值：3)

该参数表示 shuffle read task 从 shuffle write task 所在节点拉取属于自己的数据时，可以重试的最大次数。对于包含大量 shuffle 操作的作业，建议增加重试最大次数，以提升作业的稳定性。

4. spark.shuffle.io.retryWait (默认值：5s)

该参数代表了每次重试拉取数据的等待间隔。建议加大间隔时长（比如60s），以增加 shuffle 操作的稳定性。

5. spark.shuffle.memoryFraction (默认值：0.2)

该参数表示 Executor 内存中，分配给 shuffle read task 进行聚合操作的内存比例。如果内存充足，而且很少使用持久化操作，建议调高这个比例，以提高性能。

6. spark.shuffle.manager (默认值：sort)

对于业务逻辑不需要对数据进行排序，可以考虑使用 bypass 机制或优化的 HashShuffleManager 来提高性能。

7. spark.shuffle.sort.bypassMergeThreshold (默认值：200)

当 ShuffleManager 为 SortShuffleManager 时，如果 shuffle read task 的数量小于这个阈值（默认是200），则 shuffle write 过程中不会进行排序操作。合理调大此参数可以减少排序的性能开销。

8. spark.shuffle.consolidateFiles (默认值：false)

如果使用 HashShuffleManager，该参数有效。开启 consolidate 机制可以合并 shuffle write 的输出文件，减少磁盘IO开销，提升性能。

#大数据##大数据工程师##大数据知识体系##大数据面试##大数据面经#

大数据欧老师 - 面试真题分享文章被收录于专栏

解决职场真实面试问题，分享同学真实成功案例，欢迎订阅关注！

全部评论

推荐最新楼层

11-19 16:02

滴滴_产品经理(准入职员工)

滴滴内推滴滴面经

面经：一面自我介绍tcp和udp的区别http和https的区别对测试的理解出了一个测试用例题：假设平台每天都可以创建活动，用户领取这些活动进行参与，加入需要限制每个用户每天参与活动的时间不能超过8个小时，如果超过，就不能再领取参与，请你设计一个测试用例mysql查询语句：有一个成绩表(学号，姓名，科目，分数)存有学生各科成绩，查询学生的总成绩并进行排名你做测试的优势有哪些你对滴滴出行平台怎么做测试开发一个算法题：有x个台阶，每次可以走1-x步，打印每种走法的步数明细你在实习中遇到什么困难，怎么解决的会不会git，git命令会不会linux，常用linux命令栈和堆🚘投递方式 内推链接：ht...

点赞评论收藏

11-05 15:54

已编辑

门头沟学院 Java

米可世界进度

AomaYple：等HR面

点赞评论收藏

11-19 16:22

滴滴_产品经理(准入职员工)

滴滴内推滴滴面经

点赞评论收藏

11-05 19:04

河南农业大学大数据开发工程师

双非汉得大数据提前实习，可解答

投递汉得等公司10个岗位

点赞评论收藏

11-12 18:06

已编辑

门头沟学院 Java

卓望数码11.6一面，25分钟，基本凉凉

自我介绍你在XXX项目中是否使用过异步调用？有什么用？jdk的动态代理原理和cglib的动态代理有什么区别IO有用过嘛，如果友哥文件a，不知道文件类型，不知道文件大小，怎么把文件a读出来，写入b方法重载和重写有什么区别内存泄漏的场景有哪些springboot的aop你有用过嘛，应用场景讲一讲设计模式用过哪些讲讲单例模式，有哪些实现方式@Autowired和@Resource有什么区别一个项目可能有多个配置，我怎么去选择不同的配置参数我有4个字段，联合索引生效的组合有哪些？mysql的最左匹配原则讲一下mysql慢查询和性能优化如何防止sql注入linux了解嘛，查看日志的命令说一下同步调用跟异...

查看16道真题和解析

点赞评论收藏

点赞 7 评论

招聘动态

杉川机器人

2025校园招聘

字节跳动

2025校园招聘

字节跳动Data

2025校园招聘

快手Star

2025届招聘

快手

销售类投递专区

库洛游戏

全站热榜

正在热议

# 选完offer后，你后悔学本专业吗 #