老欧讲职场

2024-02-13 18:35 字节跳动_大数据工程师

关注

大数据工程师面试题 - Spark 调优（九）

我是大数据欧老师，曾在互联网某大厂任大数据负责人，从业大数据领域近 10 年，全网粉丝 5000+，从很多候选人的面试和咨询中复盘了大数据工程师的面试全流程，如果你有求职大数据工程师的计划，欢迎找我聊一聊！

数据倾斜的解决方案

解决方案八：参数调优

shuffle相关参数调优

以下是Shffule过程中的一些主要参数，这里详细讲解了各个参数的功能、默认值以及基于实践经验给出的调优建议。

Spark 参数优化详解

以下列举了Spark参数调优的一些关键参数及其优化建议：

1. spark.shuffle.file.buffer (默认值：32k)

该参数用于设置 shuffle write task 的 BufferedOutputStream 的 buffer 缓冲大小。合理增大该参数的值，可以有效减少磁盘IO次数，进而提升性能。

2. spark.reducer.maxSizeInFlight (默认值：48m)

该参数用于设置 shuffle read task 的 buffer 缓冲大小。合理增加该参数的值可以减少网络传输的次数，进而提升性能。

3. spark.shuffle.io.maxRetries (默认值：3)

该参数表示 shuffle read task 从 shuffle write task 所在节点拉取属于自己的数据时，可以重试的最大次数。对于包含大量 shuffle 操作的作业，建议增加重试最大次数，以提升作业的稳定性。

4. spark.shuffle.io.retryWait (默认值：5s)

该参数代表了每次重试拉取数据的等待间隔。建议加大间隔时长（比如60s），以增加 shuffle 操作的稳定性。

5. spark.shuffle.memoryFraction (默认值：0.2)

该参数表示 Executor 内存中，分配给 shuffle read task 进行聚合操作的内存比例。如果内存充足，而且很少使用持久化操作，建议调高这个比例，以提高性能。

6. spark.shuffle.manager (默认值：sort)

对于业务逻辑不需要对数据进行排序，可以考虑使用 bypass 机制或优化的 HashShuffleManager 来提高性能。

7. spark.shuffle.sort.bypassMergeThreshold (默认值：200)

当 ShuffleManager 为 SortShuffleManager 时，如果 shuffle read task 的数量小于这个阈值（默认是200），则 shuffle write 过程中不会进行排序操作。合理调大此参数可以减少排序的性能开销。

8. spark.shuffle.consolidateFiles (默认值：false)

如果使用 HashShuffleManager，该参数有效。开启 consolidate 机制可以合并 shuffle write 的输出文件，减少磁盘IO开销，提升性能。

#大数据##大数据工程师##大数据知识体系##大数据面试##大数据面经#

大数据欧老师 - 面试真题分享文章被收录于专栏

解决职场真实面试问题，分享同学真实成功案例，欢迎订阅关注！

全部评论

推荐最新楼层

05-09 12:05

射频工程师

小红书内推小红书内推码

小红书内推码：C2BBVQYEQ4RI 小红书校招内推链接：https://hr.xiaohongshu.com/recommend/job-list/XHSRC-7c94d3e14f8624a049ac0b86be7a5daa 小红书社招内推链接: https://hr.xiaohongshu.com/recommend/job-list/XHSRC-3bb1b8019c28fdaf1eb6c2f3a4d2765e 欢迎大家投递我们的小红书，有问题评论区打出来！ 小红书是一家开放、包容、多元的公司，我们欢迎有志之士加入我们的团队，一起创造更多的价值！

点赞评论收藏

昨天 17:30

西安电子科技大学 Java

面试官问我"你会用Cursor吗"，我才意识到今年的面试规则已经变了

上个月面了4家大厂，3家都问了同一个问题："你平时怎么用AI辅助开发？"第一次被问到的时候，我实话实说："偶尔用ChatGPT查查API文档。"面试官礼貌地笑了笑，然后没有追问。结果——挂了。第二次面试前，我认真准备了AI编程相关的项目经历。我做过一个用Cursor重构Vue组件的项目，还用Claude Code做过一次全栈重构。我把这些写进了简历。面试的时候，面试官照例问了AI编程。这次我直接打开电脑，现场演示了用Cursor做组件开发的全流程：从描述需求到生成代码，到Code Review，到性能优化。面试官看完眼前一亮："你这个Code ...

你怎么看待AI面试

点赞评论收藏

04-10 10:22

腾讯_golang工程师(实习员工)

双非暑期终于结束了

感觉自己还是挺狗运的，比不上牛客这些双非大佬随便秒终于戴上红围脖了，xdm 加油

lztqdywcnm...：

点赞评论收藏

05-08 10:07

郑州西亚斯学院 Java

没招了

要么不回。要么回的就是些这😅

点赞评论收藏

05-09 09:34

华北电力大学（保定） Java

深信服-技术服务工程师

请简单介绍个人基本情况、学历背景与研究方向。考察计算机专业基础：计算机网络、操作系统、网络安全相关知识点（网关、路由、Linux 启动流程、常用命令、Web 攻击手段等）。详细说说过往项目经历，尤其负责模块、技术方案、难点解决与并发优化细节。日常课外学习内容、自主学习方向及技术实践成果。为什么选择应聘技术服务工程师岗位，职业规划是什么。目前拿到哪些公司 offer、还投递了哪些同类岗位。通过什么渠道了解到深信服，为什么想来本公司。家庭情况、籍贯、婚恋状况，是否接受异地工作、长期出差。对岗位工作内容、强度的认知与适应能力。自身从事技术服务岗位的核心优势是什么。是否有需要反问的问题（面试结尾）。

查看11道真题和解析

点赞评论收藏

招聘动态

华泰证券星战营

AI专项人才储备计划

完美世界

拍了拍你并邀请你投递

“联宝杯”

2026 大学生创新大赛

上海人工智能实验室

2026年春季校园招聘

联想

27届暑期实习

联想

26届补录

27届校招宝典

厦门银行

2026届春季校园招聘

快手

27届实习超多转正机会

联想

2026届校园招聘

全站热榜

创作者周榜

正在热议

# 总结:offer选择，我是怎么选的 #

# AI让海力士市值突破9000亿美元 #