问过的一些公司:vivo,陌陌(2021.07) 参考答案: 1、相关问题描述 当我们使用spark sql执行etl时候出现了,可能最终结果大小只有几百k,但是小文件一个分区有上千的情况。 这样就会导致以下的一些危害: hdfs有最大文件数限制; 浪费磁盘资源(可能存在空文件); hive中进行统计,计算的时候,会产生很多个map,影响计算的速度。 2、解决方案 1) 方法一:通过spark的coalesce()方法和repartition()方法 val rdd2 =...