蓦_然

2022-08-27 23:51 广东工业大学大数据开发工程师发布于湖南

关注

Spark面试题——Spark小文件问题

问过的一些公司：vivo，陌陌(2021.07)

参考答案：

1、相关问题描述

当我们使用spark sql执行etl时候出现了，可能最终结果大小只有几百k，但是小文件一个分区有上千的情况。

这样就会导致以下的一些危害：

hdfs有最大文件数限制；
浪费磁盘资源（可能存在空文件）；
hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。

2、解决方案

1）方法一：通过spark的coalesce()方法和repartition()方法

 val rdd2 = rdd1.coalesce(8, true) // true表示是否shuffle  val rdd3 = rdd1.repartition(8)

coalesce：coalesce()方法的作用是返回指定一个新的指定分区的Rdd，如果是生成一个窄依赖的结果，那么可以不发生shuffle，分区的数量发生激烈的变化，计算节点不足，不设置true可能会出错。

repartition：coalesce()方法shuffle为true的情况。

2）方法二：降低spark并行度，即调节spark.sql.shuffle.partitions

比如之前设置的为100，按理说应该生成的文件数为100；但是由于业务比较特殊，采用的大量的union all，且union all在spark中属于窄依赖，不会进行shuffle，所以导致最终会生成（union all数量+1）*100的文件数。如有10个union all，会生成1100个小文件。这样导致降低并行度为10之后，执行时长大大增加，且文件数依旧有110个，效果有，但是不理想。

3）方法三：新增一个并行度=1任务，专门合并小文件。

先将原来的任务数据写到一个临时分区（如tmp）；再起一个并行度为1的任务，类似：

 insert overwrite 目标表 select * from 临时分区

但是结果小文件数还是没有减少，原因：‘select * from 临时分区’ 这个任务在spark中属于窄依赖；并且spark DAG中分为宽依赖和窄依赖，只有宽依赖会进行shuffle；故并行度shuffle，spark.sql.shuffle.partitions=1也就没有起到作用；由于数据量本身不是特别大，所以可以直接采用group by（在spark中属于宽依赖）的方式，类似：

 insert overwrite 目标表 select * from 临时分区 group by *

先运行原任务，写到tmp分区，‘dfs -count’查看文件数，1100个，运行加上group by的临时任务（spark.sql.shuffle.partitions=1），查看结果目录，文件数=1，成功。

最后又加了个删除tmp分区的任务。

3、总结

1）方便的话，可以采用coalesce()方法和repartition()方法。

2）如果任务逻辑简单，数据量少，可以直接降低并行度。

3）任务逻辑复杂，数据量很大，原任务大并行度计算写到临时分区，再加两个任务：一个用来将临时分区的文件用小并行度（加宽依赖）合并成少量文件到实际分区；另一个删除临时分区。

4）hive任务减少小文件相对比较简单，可以直接设置参数，如：

Map-only的任务结束时合并小文件：

 sethive.merge.mapfiles = true

在Map-Reduce的任务结束时合并小文件：

 sethive.merge.mapredfiles= true

当输出文件的平均大小小于1GB时，启动一个独立的map-reduce任务进行文件merge：

 sethive.merge.smallfiles.avgsize=1024000000

#Spark##大数据开发工程师面经#

全部评论

推荐最新楼层

linke达

电子科技大学项目经理

感谢楼主分享，希望我面试能用到

点赞回复分享

发布于 2022-08-31 22:55 陕西

11-19 17:10

University of Toronto 算法工程师

职场尴尬事件

突然一个微信群里说要开会，就发了一句通知开会的伙伴赶紧入会的意思，我在群里，我看了邮件也没通知我开会，群里就发了要开会，我在群里还回复了在哪里开会啊，没人理我，我就私聊了一个人问的，然后去了会议室发现根本不用我去开，其实我不知道在哪里开，就是没通知我开会我跑去开会就很尴尬，我坐下了又不好意思走，我就尴尬的听完了他们的会，我又怕该开会我又不去，怕工作做不好，哎太难了，特别尴尬

职场中你干过哪些“蠢”事

点赞评论收藏

11-20 22:23

上海交通大学产品经理

面试篇面试稳了还是挂了，怎么预判

面试分为很多种，个面或者群面，hr面或者业务面。对于心仪的公司岗位，我们往往迫不及待想知道面试结果，成熟公司一般不会直接当场告诉面试结果，那怎么通过和面试官沟通预判面试结果？先说面试稳了的迹象。1，面试官主动介绍部门和业务情况，并和你一起探讨业务问题，就差给你分配任务了2，面试官开始推销部门重要，业务核心，团队优秀和文化和谐，一副生怕你不接offer的担忧3，面试官和你沟通中已经超时，不介意延长时间继续聊，有点相见恨晚的感觉4，面试官咨询你是否可以提前来实习以及实习时间等再说面试挂了的迹象。1，面试官听完自我介绍，问了几个问题后，表现出无所谓甚至不耐烦的样子2，面试官对一些问题连续追问无果后，...

毕业求职不EMO 总结:哪家公司面试体验感最差牛客创作赏金赛

点赞评论收藏

11-20 08:31

广西大学自然语言处理

拼多多开奖，年包216w

算是普通人靠薪资拿到的天花板了吧？

杨柳哥：这不是普通人，那这个钱的是天才

点赞评论收藏

11-11 19:35

门头沟学院安全工程师

对方撤回了一个笔试

世界是个巨大的草台班子

shtdbb_：还不错，没有让你做了笔试再挂你

点赞评论收藏

11-17 09:51

已编辑

腾讯_游戏客户端开发(准入职员工)

腾讯光子游戏客户端上岸，cpp秋招总结

引子文章是记录自己 2024.7~2024.11 秋招的情况，也是对自己大半年来努力的一个总结和收尾，也因为牛客上很多前辈和大佬的秋招感悟对我起到了很大的帮助，所以想记录一些内容供大伙参考（情况因人而异，可以辩证看待）。个人大致情况学历：本北邮软工硕华科计科专业成绩：排名10%到15%左右，保研比赛：略等于无论文：无项目：实验室工程项目（PCIE 驱动、动态库部分）、个人小项目实习：本科一段中厂 Java 后端、硕士一段华为武研所软开个人秋招投递/面试情况暑期在华为武研所实习，总体强度不大，因此从7月初开始参加秋招提前批，一边实习一边笔试面试。秋招主要投递的方向是 C++开发、嵌入式软件、操作...

点赞评论收藏

7 19 评论

招聘动态

字节跳动

2025校园招聘

杉川机器人

2025校园招聘

快手Star

2025届招聘

快手

销售类投递专区

库洛游戏

全站热榜

正在热议

# 25届秋招总结 #

271191次浏览 2292人参与

# 如果实习可以转正，你会不会放弃秋招 #

# 选完offer后，你后悔学本专业吗 #

14994次浏览 111人参与

# 0offer是寒冬太冷还是我太菜 #

890222次浏览 7943人参与

# 你觉得专业和学校哪个对薪资影响最大 #