爱写代码的小李

04-06 09:53 长春工业大学测试工程师发布于黑龙江

关注

如何在 Spark SQL 中进行表的分区和分桶？两者的区别是什么？

Spark SQL 表分区与分桶详解

一、表分区（Partitioning）

定义：

通过指定业务相关字段（如日期、地域）将数据物理划分为独立目录存储，实现垂直切分。

核心特性：

目录结构映射：/table/path/partition_column=value/
分区裁剪：自动跳过无关分区，减少I/O
适用场景：有明显时间范围查询（如WHERE dt='2023-01-01'）

创建语法：

-- 静态分区表
CREATE TABLE logs (
  user_id STRING,
  event STRING
) PARTITIONED BY (dt STRING, country STRING)
STORED AS PARQUET;

-- 动态分区插入
SET spark.sql.sources.partitionOverwriteMode=dynamic;
INSERT OVERWRITE TABLE logs 
PARTITION (dt, country)
SELECT user_id, event, dt, country FROM source_table;

二、表分桶（Bucketing）

定义：

通过哈希算法将数据均匀分布到固定数量的文件中，实现水平切分。

核心特性：

Join加速：相同Bucket Key的数据局部性增强
高效聚合：相同Key数据已预聚合
适用场景：高频JOIN字段（如user_id）、中等基数维度

创建语法：

CREATE TABLE user_orders (
  user_id INT,
  order_id STRING,
  amount DOUBLE
) CLUSTERED BY (user_id) INTO 32 BUCKETS
STORED AS PARQUET;

-- 写入时需启用分桶
SET spark.sql.sources.bucketing.enabled=true;
INSERT INTO user_orders SELECT * FROM source_table;

三、分区 vs 分桶对比

存储方式	按列值划分目录（多级嵌套）	哈希散列到固定数量文件
优化目标	快速过滤（分区裁剪）	提升JOIN/聚合效率
适用列特征	低基数（如国家、日期）	高基数且均匀分布（如用户ID）
文件数量	随分区数线性增长（易产生小文件）	固定数量（可控文件大小）
查询场景	`WHERE partition_col=value`	`JOIN ON bucketed_col` / `GROUP BY bucket_col`

四、联合使用策略

-- 分区+分桶组合优化
CREATE TABLE user_behavior (
  user_id INT,
  event_time TIMESTAMP,
  action STRING
) PARTITIONED BY (dt STRING)
CLUSTERED BY (user_id) INTO 64 BUCKETS
STORED AS ORC;

-- 查询时双重优化
SELECT * FROM user_behavior 
WHERE dt='2023-10-01'          -- 触发分区裁剪
  AND user_id=1001;            -- 命中分桶文件

五、注意事项

分区陷阱避免超过1000个分区（引发元数据压力）动态分区写入时设置spark.sql.files.maxRecordsPerFile控制文件大小
分桶限制要求输出格式支持（Parquet/ORC）写入时需排序保证分桶有效性：
Spark 3.0+优化启用自适应执行提升分桶效果：

典型应用场景：

电商订单表采用(dt, region)二级分区 + order_id分桶，可同时优化时间范围查询和订单详情的JOIN效率。

全部评论

推荐最新楼层

04-05 16:53

亿联网络_运营管理中心_运维开发工程师(准入职员工)

亿联网络内推

运维工程师技术面试题目：在 Linux 系统中，如何查找占用 CPU 或内存过高的进程？说明top、ps等命令的使用方法和区别。请解释 OSI 模型和 TCP/IP 模型的主要区别，以及各层的主要功能。MySQL 中索引的作用是什么？有哪些常见的索引类型？如何优化数据库查询语句以提高查询效率？如果要求用 Python 或 Shell 编写一个脚本，实现定时备份服务器上的重要文件，你会如何实现？常用的服务器监控工具有哪些？如 Zabbix、Prometheus 等，说明其工作原理和基本配置方法。Ansible 和 Puppet 都是常见的自动化运维工具，它们的主要区别是什么？请举例说明如何使用 ...

点赞评论收藏

分享

04-06 11:56

#牛客在线求职答疑中心# 2025厦航信息技术岗面试及笔试都考啥内容呀？求赐教

牛客在线求职答疑中心

点赞评论收藏

分享

昨天 11:21

The University of Queensland Java

备忘录模式（Memento Pattern）

备忘录模式（Memento Pattern）是一种行为设计模式，它允许在不破坏对象封装性的前提下，捕获并保存一个对象的内部状态，以便在需要时可以将该对象恢复到之前保存的状态。以下从多个方面对备忘录模式进行详细介绍。 模式结构与角色 备忘录模式主要包含以下几个角色： 原发器（Originator）：需要保存状态的对象，它可以创建备忘录来保存自身的内部状态，也可以使用备忘录来恢复自身的状态。 备忘录（Memento）：用于存储原发器的内部状态，它提供了获取和设置状态的方法，但通常原发器可以访问其内部状态，而其他对象只能通过原发器来间接访问。 管理者（Caretaker）：负责保存备忘录，但不能对...

Java设计模式

点赞评论收藏

分享

04-06 09:52

门头沟学院 Java

求助请教-入职后如何持续学习和方向？

入职后干的是java开发岗，目前来看可能是内部管理系统的开发和维护，对未来有些迷茫，很担心岗位稳定度和调薪，想请教大家，要持续往互联网方向发展要如何持续学习？以及1，2年后进行社招和校招区别，等等。

点赞评论收藏

分享

昨天 11:49

The University of Queensland Java

策略模式（Strategy Pattern）

策略模式（Strategy Pattern）是一种行为设计模式，它定义了一系列的算法，并将每个算法封装起来，使它们可以相互替换。策略模式让算法的变化独立于使用算法的客户端。以下从多个方面详细介绍策略模式。 模式结构与角色 策略模式主要包含以下几个角色： 策略接口（Strategy）：定义了所有具体策略类必须实现的公共接口，通常包含一个或多个抽象方法，这些方法代表了算法的行为。 具体策略类（Concrete Strategy）：实现了策略接口，提供了具体的算法实现。每个具体策略类封装了一种特定的算法。 上下文类（Context）：维护一个对策略接口的引用，负责根据客户端的需求选择并使用具体的策...

Java设计模式

点赞评论收藏

分享

评论

点赞

收藏

招聘动态

招商银行数字金融训练营

火热报名中

携程集团

25届校招+26届实习

字节跳动Tik Tok

26届实习招聘

26届实习求职交流群

26届实习生双选会报名开启

米哈游

2025春季校园招聘

完美世界

25届春招&26届实习生招聘

联想

25届校招+26届实习

字节跳动

25届补录&26届实习

理想汽车

2025春季校园招聘

全站热榜

更多

创作者周榜

更多

正在热议

更多

2351121次浏览 27381人参与

# 如果没找到工作，考公是你的退路吗 #

15907次浏览 179人参与

# 牛友故事会 #

509347次浏览 11668人参与

# 多益网络求职进展汇总 #

6928次浏览 44人参与

# 不考虑薪资和职业，你最想做什么工作呢？ #

67283次浏览 580人参与

# 你上一次加班是什么时候？ #

43312次浏览 307人参与

# 关于春招你都做了哪些准备？ #

78304次浏览 511人参与

# 蔚来求职进展汇总 #

84996次浏览 746人参与

# 你最希望上岸的公司是？ #

112587次浏览 625人参与

# 找工作有哪些冷知识 #

18498次浏览 222人参与

# 金蝶求职进展汇总 #

41280次浏览 234人参与

# 你最想要的公司福利是？ #

60049次浏览 261人参与

# 谈薪时HR压价该怎么应对 #

189725次浏览 3057人参与

# 产品2023笔面经 #

46828次浏览 422人参与

# 机械人的offer怎么选 #

127973次浏览 736人参与

# 央国企投递记录 #

75645次浏览 1290人参与

# 入职第四天，心情怎么样 #

24058次浏览 352人参与

# 我的2024小目标 #

54125次浏览 370人参与

# 实习中的菜狗时刻 #

326710次浏览 3086人参与

# 得物求职进展汇总 #

84632次浏览 764人参与

牛客网
牛客企业服务