蓦_然

2022-08-27 23:51 广东工业大学大数据开发工程师发布于湖南

关注

Spark面试题——Spark小文件问题

问过的一些公司：vivo，陌陌(2021.07)

参考答案：

1、相关问题描述

当我们使用spark sql执行etl时候出现了，可能最终结果大小只有几百k，但是小文件一个分区有上千的情况。

这样就会导致以下的一些危害：

hdfs有最大文件数限制；
浪费磁盘资源（可能存在空文件）；
hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。

2、解决方案

1）方法一：通过spark的coalesce()方法和repartition()方法

 val rdd2 = rdd1.coalesce(8, true) // true表示是否shuffle  val rdd3 = rdd1.repartition(8)

coalesce：coalesce()方法的作用是返回指定一个新的指定分区的Rdd，如果是生成一个窄依赖的结果，那么可以不发生shuffle，分区的数量发生激烈的变化，计算节点不足，不设置true可能会出错。

repartition：coalesce()方法shuffle为true的情况。

2）方法二：降低spark并行度，即调节spark.sql.shuffle.partitions

比如之前设置的为100，按理说应该生成的文件数为100；但是由于业务比较特殊，采用的大量的union all，且union all在spark中属于窄依赖，不会进行shuffle，所以导致最终会生成（union all数量+1）*100的文件数。如有10个union all，会生成1100个小文件。这样导致降低并行度为10之后，执行时长大大增加，且文件数依旧有110个，效果有，但是不理想。

3）方法三：新增一个并行度=1任务，专门合并小文件。

先将原来的任务数据写到一个临时分区（如tmp）；再起一个并行度为1的任务，类似：

 insert overwrite 目标表 select * from 临时分区

但是结果小文件数还是没有减少，原因：‘select * from 临时分区’ 这个任务在spark中属于窄依赖；并且spark DAG中分为宽依赖和窄依赖，只有宽依赖会进行shuffle；故并行度shuffle，spark.sql.shuffle.partitions=1也就没有起到作用；由于数据量本身不是特别大，所以可以直接采用group by（在spark中属于宽依赖）的方式，类似：

 insert overwrite 目标表 select * from 临时分区 group by *

先运行原任务，写到tmp分区，‘dfs -count’查看文件数，1100个，运行加上group by的临时任务（spark.sql.shuffle.partitions=1），查看结果目录，文件数=1，成功。

最后又加了个删除tmp分区的任务。

3、总结

1）方便的话，可以采用coalesce()方法和repartition()方法。

2）如果任务逻辑简单，数据量少，可以直接降低并行度。

3）任务逻辑复杂，数据量很大，原任务大并行度计算写到临时分区，再加两个任务：一个用来将临时分区的文件用小并行度（加宽依赖）合并成少量文件到实际分区；另一个删除临时分区。

4）hive任务减少小文件相对比较简单，可以直接设置参数，如：

Map-only的任务结束时合并小文件：

 sethive.merge.mapfiles = true

在Map-Reduce的任务结束时合并小文件：

 sethive.merge.mapredfiles= true

当输出文件的平均大小小于1GB时，启动一个独立的map-reduce任务进行文件merge：

 sethive.merge.smallfiles.avgsize=1024000000

#Spark##大数据开发工程师面经#

全部评论

推荐最新楼层

linke达

电子科技大学项目经理

感谢楼主分享，希望我面试能用到

点赞回复分享

发布于 2022-08-31 22:55 陕西

11-19 17:35

华南师范大学 Web前端

吃了没经验的亏，吃了不听人劝的亏

没想到国企央企很多流程都没后续，吃了没经验的亏，吃了不听人劝的亏。感觉春招还得再来，，，

点赞评论收藏

11-21 15:10

华南农业大学运营

领导让我以后别叫他哥

领导让我以后别叫他哥 此时一个从小被教育一生都要大大方方懂礼貌的东北人悄悄的碎了… 我以后该怎么叫他啊…

牛客602221609号：工作的时候称职务

点赞评论收藏

10-11 17:45

门头沟学院 Java

请你不要扣扣

😅😅😅😅😅😅

走吗：别怕我以前也是这么认为虽然一面就挂但是颇有收获！

点赞评论收藏

10-15 16:27

门头沟学院 C++

感觉被侮辱了

😅

LeoMoon：建议问一下是不是你给他付钱😅😅

点赞评论收藏

昨天 12:19

内蒙古科技大学客户代表

秋招完美地画上了句号！

我最近收到了中信银行的总包65.8万的offer，心情真是不错！秋招的结果让我感到很满意，毕竟能在竞争激烈的环境中脱颖而出，确实不容易。虽然有时候也会感到压力，但这样的成就感让我觉得一切都值得。希望未来的工作能让我继续成长，迎接更多挑战！

牛客创作赏金赛

点赞评论收藏

7 19 评论

招聘动态

字节跳动

2025校园招聘

杉川机器人

2025校园招聘

快手Star

2025届招聘

快手

销售类投递专区

库洛游戏

全站热榜

正在热议

# 25届秋招总结 #

274041次浏览 2331人参与

# 如果实习可以转正，你会不会放弃秋招 #

# 选完offer后，你后悔学本专业吗 #

# 你觉得专业和学校哪个对薪资影响最大 #