04-17 00:16 门头沟学院数据分析师发布于广东

关注

Doris数据倾斜原因及优化（2万字长文深度解析）

在大数据面试，数据倾斜几乎是必问题。Doris是大数据后起之秀，越来越多面试官喜欢问Doris的问题。

要深入探讨数据倾斜问题，首先需要了解Doris的核心架构和工作原理。Doris采用了分布式存储和计算分离的设计，主要由FE（Frontend）和BE（Backend）两大组件构成。FE负责元数据管理和查询解析，而BE则负责数据的存储和计算。数据在BE节点上以Tablet为单位进行分片存储，通过分桶（Bucketing）机制将数据分配到不同的节点上。这种设计初衷是为了实现数据的均匀分布和并行计算，但实际应用中，由于数据本身的特性或建表策略的不足，数据的分布往往难以达到理想的平衡状态。例如，当某个分桶列的选择不当，或者数据中存在“热点”值（即某些值出现的频率极高）时，部分Tablet的数据量会远超其他Tablet，从而导致负载不均。

数据倾斜的影响在Doris的查询执行中表现得尤为明显。在一个典型的查询任务中，Doris会将计算任务分解为多个子任务，分配到不同的BE节点并行执行。如果数据分布不均，某些节点需要处理的数据量远超其他节点，就会成为整个任务的瓶颈。这种现象在业内常被形容为“木桶效应”——系统的整体性能取决于最慢的那个节点。更具体地来说，数据倾斜会导致查询响应时间延长，甚至在高并发场景下引发超时错误。此外，由于部分节点负载过重，可能会出现内存溢出或CPU占用率过高的问题，进一步影响系统的稳定性。对于依赖实时分析的企业来说，这种延迟和不稳定可能是致命的。

为了更直观地说明数据倾斜的影响，不妨以一个实际场景为例。假设某电商平台使用Doris存储和分析用户的订单数据，表结构如下：

order_id	BIGINT	订单ID
user_id	INT	用户ID
order_date	DATE	订单日期
product_category	STRING	商品类别
order_amount	DECIMAL	订单金额

在建表时，假设选择了`user_id`作为分桶列，并设置了多个桶进行数据分布。然而，由于平台上某些“超级用户”（如批发商或企业用户）会频繁下单，导致与这些用户相关的订单数据集中存储在少数几个Tablet中。当执行一个聚合查询（如计算每个用户的总订单金额）时，存储这些“热点”用户数据的节点会承担远超平均水平的计算压力，而其他节点可能几乎处于空闲状态。最终，整个查询的执行时间被少数节点拖慢，系统资源也未能得到充分利用。

从更广义的角度来看，数据倾斜不仅是一个技术问题，更是一个业务问题。在金融、零售、电信等行业，大规模数据分析往往直接关联到业务决策的及时性和准确性。如果由于数据倾斜导致分析结果延迟或系统不稳定，企业可能会错失市场机会，甚至面临经济损失。更重要的是，随着数据量的持续增长，数据倾斜问题的影响会愈发显著。如果不及时采取优化措施，系统的扩展性将受到严重限制，难以应对未来的业务需求。

值得注意的是，数据倾斜并非Doris独有的问题，而是分布式系统中普遍存在的挑战。在Hadoop和Spark等框架中，数据倾斜常出现在Shuffle阶段，导致部分Reducer任务处理的数据量远超其他任务。而在Doris这样的OLAP数据库中，数据倾斜更多体现在存储层的数据分布不均和计算层的负载失衡上。尽管成因和表现形式有所不同，但核心问题都是资源的分配不均。因此，借鉴其他分布式系统的优化经验，结合Doris自身的特性，寻找有效的解决方案显得尤为重要。

数据倾斜的成因多种多样，既可能源于数据本身的特性（如值分布不均），也可能与系统的配置和使用方式有关（如分桶策略不当或查询设计不合理）。此外，不同场景下的数据倾斜表现和影响也有所不同。例如，在批处理任务中，数据倾斜可能仅表现为执行时间的延长；而在实时分析场景中，它可能直接导致系统无法满足SLA（Service Level Agreement）。因此，优化数据倾斜并非一劳永逸的解决方案，而是需要结合具体场景进行持续调整和改进。

正因为数据倾斜问题的普遍性和复杂性，深入研究其成因和优化方法显得尤为迫切。对于Doris用户而言，理解数据倾斜的影响不仅有助于提升查询性能，还能帮助他们在系统设计和运维中做出更明智的选择。例如，在建表时选择合适的分桶列，或者在查询时通过改写SQL避免热点数据的集中处理，都是有效的应对措施。更重要的是，通过对数据倾斜的优化，用户可以最大限度地发挥Doris的性能优势，降低系统运维成本，提升业务价值。

第一章：Doris数据库概述与数据倾斜定义

Apache Doris 作为一款高性能的分布式 OLAP（在线分析处理）数据库，近年来在大数据分析领域崭露头角。它以其卓越的查询性能、简洁的架构设计以及对大规模数据处理的强大支持，赢得了众多企业的青睐，尤其在实时分析、报表生成和数据仓库等场景中表现突出。然而，即便是这样一款强大的系统，在面对复杂的数据分布时，也难以完全避免数据倾斜这一普遍存在的挑战。为了深入探讨数据倾斜的成因与优化策略，我们需要先对 Doris 的核心架构和运行机制有一个全面的认识，同时明确数据倾斜的具体定义及其表现形式。

Doris 数据库的核心架构

Doris 是一个基于 MPP（Massively Parallel Processing，大规模并行处理）架构的分布式数据库系统，旨在通过多节点并行计算实现高吞吐量和低延迟的数据分析。其架构设计清晰地分为前端（Frontend, FE）和后端（Backend, BE）两大核心组件，分别承担不同的职责。

前端节点主要负责元数据管理、查询解析和执行计划生成。用户提交的 SQL 查询首先到达 FE，FE 会解析查询语句，生成逻辑执行计划，并将其优化为物理执行计划，随后将任务分发到各个后端节点。FE 还负责集群的管理和协调，例如节点状态监控、数据副本管理等，可以看作是整个系统的“大脑”。

后端节点则是数据的实际存储和计算单元，每个 BE 负责存储一部分数据并执行分配到的计算任务。Doris 采用列式存储模型，将数据按列组织存储在磁盘上，这种方式极大地提升了分析型查询的性能，因为在执行聚合、过滤等操作时，只需读取相关列的数据，避免了无关数据的扫描。此外，BE 节点之间通过网络进行数据交换和结果汇总，形成一个高效的分布式计算网络。

Doris 的存储模型还引入了分桶（Bucket）和分片（Partition）的概念。数据表可以根据指定的列（如时间、ID 等）进行分区，每个分区内再进一步划分为多个桶，桶内的数据分布在不同的 BE 节点上。这种分层设计旨在实现数据的均匀分布和并行处理，但如果分桶策略不当或数据本身存在偏差，就可能导致某些节点的数据量或计算负载远超其他节点，进而引发性能瓶颈。

Doris 的查询执行机制

在理解 Doris 的架构基础上，查询执行机制是另一个需要关注的重点。Doris 的查询处理流程体现了 MPP 架构的核心思想：并行计算与分布式协作。当一个查询到达 FE 后，系统会根据数据的分布情况和查询条件，将任务分解为多个子任务，并分配到对应的 BE 节点上执行。每个 BE 节点独立处理自己负责的数据片段，计算完成后将中间结果返回给 FE 或直接进行节点间的数据交换，最终汇总形成完整的结果。

这种并行执行的方式在理想情况下能够显著提升查询效率，尤其是在处理大规模数据集时。例如，假设一个表有 100 亿条记录，分布在 10 个 BE 节点上，每个节点只需处理 10 亿条数据，理论上可以将查询时间缩短为原来的十分之一。然而，这种理想状态的前提是数据和计算任务在节点间的分布是均匀的。一旦某个节点的数据量或计算复杂度远高于其他节点，整体查询的完成时间将取决于最慢的那个节点，形成“木桶效应”。

Doris 在查询执行中还支持多种优化技术，例如向量化执行、查询重写和索引利用。向量化执行通过批量处理数据减少 CPU 开销，而查询重写则通过逻辑优化减少不必要的计算。这些机制进一步提升了系统的性能，但在数据分布不均的情况下，这些优化手段的效果可能会大打折扣。

数据倾斜的定义与表现形式

在对 Doris 的基本架构和运行机制有了初步了解后，我们可以聚焦到数据倾斜这一核心问题上。数据倾斜（Data Skew）是指在分布式系统中，数据或计算任务在节点间的分布不均衡，导致部分节点负载过重，而其他节点资源利用不足的现象。这种不均衡可能发生在数据存储阶段，也可能发生在查询执行阶段，最终对系统的整体性能产生负面影响。

在 Doris 中，数据倾斜的表现形式多种多样，但归根结底都与数据分布和任务分配的不均有关。一种常见的情况是存储层面的数据倾斜，即某些分桶或分片中的数据量远超其他分桶。例如，假设一个电商平台的数据表按用户 ID 进行分桶，如果某些用户（如超级买家）的订单数量远高于平均水平，那么存储这些用户数据的桶可能会变得异常庞大，相应的 BE 节点将承受更大的存储和计算压力。

另一种表现形式是计算层面的倾斜，即在查询执行过程中，某些节点分配到的计算任务明显比其他节点复杂或耗时。这种情况往往与数据的分布特性以及查询条件有关。例如，一个查询需要对某个热门商品的销售数据进行聚合，如果该商品的数据集中存储在少数几个桶中，那么负责这些桶的 BE 节点将需要处理更多的计算任务，而其他节点可能处于空闲状态。

为了更直观地说明数据倾斜的影响，可以通过一个简单的示例加以说明。假设我们有一个订单表，包含 1 亿条记录，分布在 5 个 BE 节点上，理想情况下每个节点存储 2000 万条记录。以下是一个未发生倾斜和发生倾斜时的分布对比：

BE1	20,000,000	50,000,000
BE2	20,000,000	10,000,000
BE3	20,000,000	10,000,000
BE4	20,000,000	10,000,000
BE5	20,000,000	20,000,000

在理想分布中，每个节点的负载是均衡的，查询执行时间取决于单个节点的处理速度。而在倾斜分布中，BE1 存储了 50% 的数据，其处理时间可能远超其他节点，导致整个查询的完成时间被拖延。更为严重的是，这种不均衡还可能引发资源竞争，例如磁盘 I/O 瓶颈或内存溢出，进一步恶化系统性能。

除了存储和计算层面的倾斜，数据倾斜还可能以热点问题的形式表现出来。热点问题是指某些数据或查询模式导致系统资源被频繁访问，形成访问集中。例如，在一个社交媒体平台中，某些明星用户的动态数据可能被大量查询，这些数据所在的节点将成为热点节点，承受极高的访问压力。这种热点不仅会影响查询性能，还可能导致系统的不稳定，甚至引发节点宕机。

数据倾斜的影响与挑战

数据倾斜对 Doris 系统的影响是多方面的。它不仅会降低查询效率，还会对系统的稳定性和可扩展性构成威胁。在查询效率方面，倾斜导致的“木桶效应”使得整体性能受限于最慢的节点，用户体验因此受到损害。在资源利用方面，部分节点过载而其他节点空闲，导致集群整体的资源利用率低下，浪费了宝贵的计算能力。

更重要的是，数据倾斜还可能引发连锁反应。例如，负载过重的节点可能因资源耗尽而出现故障，而 Doris 的副本机制虽然能够提供一定的容错能力，但频繁的故障恢复会进一步增加系统开销，甚至导致查询失败。在大规模数据分析场景中，这种问题尤为突出，因为数据量越大，倾斜的影响越显著。

为了应对这些挑战，理解数据倾斜的成因和表现形式是第一步。在后续的内容中，我们将深入剖析导致数据倾斜的根本原因，例如数据本身的特性、分桶策略的设计以及查询模式的分布特点。

结合实际场景的初步分析

为了将理论与实践更好地结合，我们可以从一个常见的业务场景入手，初步分析数据倾斜的潜在风险。以一个电商平台为例，假设其核心数据表记录了用户的订单信息，表结构如下：

CREATE TABLE orders (    order_id BIGINT,    user_id BIGINT,    product_id BIGINT,    order_date DATE,    amount DECIMAL(10,2)) DISTRIBUTED BY HASH(user_id) BUCKETS 32;

在这个表中，数据按 `user_id` 进行哈希分桶，共有 32 个桶，分布在多个 BE 节点上。表面上看，这种分桶策略是合理的，因为用户 ID 通常具有较好的离散性。然而，如果平台中存在少量“超级用户”（例如批发商或企业客户），他们的订单数量可能占到总订单的 50% 以上，那么这些用户的数据将被集中分配到少数几个桶中，形成明显的倾斜。

在执行查询时，例如统计某段时间内的订单总额：

SELECT SUM(amount) FROM orders WHERE order_date BETWEEN '2023-01-01' AND '2023-12-31';

负责存储超级用户数据的节点将处理远超平均水平的记录数，而其他节点可能很快完成任务并处于等待状态。这种不均衡直接导致查询延迟，甚至可能因为单个节点的资源耗尽而失败。

通过这个简单的例子，我们可以看到数据倾斜并非一个抽象的概念，而是与业务场景和数据特性紧密相关的实际问题。Doris 作为一个强大的分布式数据库，虽然提供了灵活的分桶机制和查询优化手段，但在面对复杂的数据分布时，仍需要用户根据具体场景进行细致的调优。

第二章：数据倾斜在Doris中的具体表现

在分布式系统中，数据倾斜是一种常见而又棘手的问题，尤其是在像 Apache Doris 这样基于 MPP（大规模并行处理）架构的 OLAP 数据库中，其影响往往会被放大。由于 Doris 的设计目标是高效处理大规模数据，数据分布和任务分配的均衡性直接关系到系统的整体性能。一旦数据倾斜发生，部分节点可能承受过高的负载，而其他节点则处于空闲状态，导致资源利用率低下，甚至引发查询延迟或系统故障。本部分将深入探讨数据倾斜在 Doris 中的具体表现形式，覆盖数据存储阶段和查询执行阶段的典型场景，并结合业务案例进行分析，以便读者更直观地理解其影响和成因。

数据存储阶段的倾斜表现

在 Doris 中，数据的存储和管理基于分桶分片（Bucketing 和 Partitioning）机制。数据按照分区键和分桶键被划分为多个片段，分布到不同的后端节点（BE）上进行存储。如果设计不当或数据特性本身存在偏差，这种分片机制很容易导致数据在节点间的分布不均，形成存储层面的倾斜。

一个常见的场景是分区键选择不当导致的数据分布不均衡。例如，假设一个表按照日期字段作为分区键，而业务数据的生成时间高度集中在某个时间段内（如某一天或某一个月），那么对应的分区数据量会远超其他分区。这种情况下，存储该分区的 BE 节点会存储大量数据，而其他节点可能几乎没有数据，造成存储资源的浪费。更严重的是，当查询涉及到这些数据量较大的分区时，单个节点需要处理的计算任务会显著增加，进而影响查询性能。为了直观展示这种现象，可以参考下表，假设一个表按日期分区，数据分布如下：

2023-01-01	10,000	BE1
2023-01-02	500,000	BE2
2023-01-03	8,000	BE1
2023-01-04	12,000	BE3

从表格中可以清晰看出，存储在 BE2 上的数据量远超其他节点，这种分布不均直接导致 BE2 成为性能瓶颈。此外，如果分桶键的选择不具备良好的散列特性，也会加剧数据倾斜。例如，使用一个值分布极不均匀的字段（如性别字段，只有“男”和“女”两种值）作为分桶键，会导致大部分数据集中在少数几个桶中，进而映射到少数 BE 节点上。

存储阶段的倾斜不仅仅影响资源利用率，还会对数据写入和导入操作产生负面影响。在 Doris 中，数据导入通常是并行化的，但如果目标分区或桶分布不均，部分节点会因为接收过多数据而成为瓶颈，导致整体导入效率下降。这种问题在高并发写入场景中尤为突出，比如实时日志分析系统中，日志数据可能按照设备 ID 或用户 ID 分片，如果某些设备或用户的日志量远超其他设备，存储倾斜几乎不可避免。

查询执行阶段的倾斜表现

相比存储阶段的倾斜，查询执行阶段的数据倾斜往往更具隐蔽性，但其对性能的影响同样不容忽视。在 Doris 中，查询计划由前端节点（FE）生成并分解为多个任务，分配给后端节点（BE）并行执行。如果数据分布不均或查询操作本身存在特性差异，某些节点可能会被分配到远超其处理能力的任务量，从而拖慢整体查询速度。

一个典型的例子是 Join 操作中的数据倾斜。在分布式 Join 操作中，Doris 会根据 Join 键对数据进行重分布（Shuffle），以确保相同键值的数据被发送到同一个节点进行计算。如果 Join 键的值分布不均，例如某个键值对应大量记录，那么接收该键值的节点会处理过多的数据，而其他节点可能几乎无事可做。这种现象在业务场景中非常常见，比如在电商数据分析中，分析用户订单数据时，Join 键为用户 ID，而某些高活跃用户（大客户）的订单数量远超普通用户，导致数据在重分布后集中到少数节点。

为了更直观地说明这一问题，可以参考以下伪代码，展示 Join 操作中可能出现的数据分布：

-- 假设有两个表：订单表 orders 和用户表 usersSELECT o.order_id, u.user_nameFROM orders oJOIN users u ON o.user_id = u.user_idWHERE o.order_date = '2023-01-01';

假设 `orders` 表中，某个 `user_id`（如 ID=1001）对应 10 万条订单记录，而其他用户平均只有 10 条记录。在 Join 操作中，Doris 会将所有 `user_id=1001` 的记录分发到同一个 BE 节点，导致该节点处理的数据量远超其他节点。这种倾斜不仅会延长查询时间，还可能导致内存溢出或节点崩溃。

除了 Join 操作，聚合操作（Aggregation）也容易引发查询倾斜。例如，使用 `GROUP BY` 语句时，如果分组键的值分布不均，某些分组的结果集会远大于其他分组，负责计算该分组的节点会承受过高的负载。这种问题在分析场景中经常遇到，比如按地区统计销售额时，如果某个地区（如一线城市）的交易量远超其他地区，数据倾斜几乎是必然的。

常见业务场景中的数据倾斜案例

为了更贴近实际应用，下面结合两个具体的业务场景，分析数据倾斜在 Doris 中的表现形式及其影响。

在广告投放分析场景中，广告平台通常需要实时分析广告点击和转化数据。假设数据表按照广告 ID 作为分桶键存储，而某些热门广告的点击量远超其他广告，导致存储和查询任务集中到少数 BE 节点上。在这种情况下，不仅存储资源的利用率低下，查询性能也会受到严重影响。例如，计算某广告的点击率时，涉及该广告数据的节点需要处理大量记录，而其他节点几乎空闲，整体查询时间被少数节点拖慢。更糟糕的是，如果热门广告的数据量持续增长，单节点可能无法承受负载，导致查询失败或系统不稳定。

另一个案例来自物联网（IoT）设备监控场景。在该场景中，设备日志数据按照设备 ID 进行分片存储和查询。然而，某些设备的日志生成频率远高于其他设备，比如某些核心设备每秒生成数百条日志，而普通设备每天仅生成几条。这种数据分布特性会导致存储和查询的双重倾斜。在存储层面，负责存储高频设备日志的节点磁盘空间和 I/O 负载激增；在查询层面，分析特定设备行为时，涉及高频设备的节点计算压力巨大。这种倾斜不仅影响系统性能，还可能导致数据导入延迟，影响实时监控的效果。

数据倾斜对系统整体的影响

无论是存储阶段还是查询阶段，数据倾斜都会对 Doris 系统的整体性能和稳定性产生深远影响。从资源利用率的角度看，倾斜导致部分节点过载，而其他节点空闲，整体集群的计算和存储能力无法充分发挥。从用户体验的角度看，倾斜会显著延长查询响应时间，甚至导致查询失败，影响业务决策的及时性。更重要的是，在高并发场景下，数据倾斜可能引发系统级故障，例如节点宕机或集群不稳定，进一步加剧问题。

值得注意的是，数据倾斜的影响往往是多方面的。例如，存储倾斜不仅会影响写入性能，还会间接导致查询倾斜，因为查询任务的分配通常依赖于数据分布。反过来，查询倾斜也可能加剧存储倾斜，例如在数据重分布过程中，某些节点接收过多数据，导致磁盘负载进一步失衡。这种相互影响的关系使得数据倾斜问题更加复杂，需要从多个维度进行分析和优化。

如何识别数据倾斜的表现

在实际运维中，识别数据倾斜是解决问题的第一步。Doris 提供了丰富的监控工具和指标，帮助用户发现潜在的倾斜问题。例如，通过查询 BE 节点的存储使用量，可以快速判断是否存在存储倾斜；通过分析查询执行计划和任务分配情况，可以识别 Join 或聚合操作中的查询倾斜。此外，Doris 的日志系统也记录了节点负载和任务执行时间等关键信息，运维人员可以借助这些数据定位问题根源。

以存储倾斜为例，可以通过以下 SQL 查询检查各分区的行数分布：

SHOW PARTITIONS FROM table_name;

该命令会返回每个分区的详细信息，包括行数和存储位置。如果某个分区的行数远超其他分区，存储倾斜的可能性较大。类似地，在查询执行过程中，可以通过 Doris 的 Web UI 查看任务分配情况，如果某个 BE 节点的执行时间明显长于其他节点，查询倾斜的可能性较高。

第三章：Doris数据倾斜的成因分析

在分布式系统中，数据倾斜是一个普遍存在且影响深远的问题，A

剩余60%内容，订阅专栏后可继续查看/也可单篇购买

大数据从入门到精通-最全面试题文章被收录于专栏

17年+码农经历了很多次面试，多次作为面试官面试别人，多次大数据面试和面试别人，深知哪些面试题是会被经常问到。在多家企业从0到1开发过离线数仓实时数仓等多个大型项目，详细介绍项目架构等企业内部秘不外传的资料，介绍踩过的坑和开发干货，分享多个拿来即用的大数据ETL工具，让小白用户快速入门并精通，指导如何入职后快速上手。计划更新内容100篇以上，包括一些企业内部秘不外宣的干货，欢迎订阅！