三石大数据

06-29 11:19 门头沟学院大数据开发工程师发布于浙江

关注

常见算子的数据倾斜解决方案

推荐阅读文章列表

大数据开发面经汇总【持续更新...】

我的大数据学习之路

大数据开发面试笔记V6.0

前言

数据倾斜既是工作中最常见的一个问题，也是大数据求职面试中最常见的一个话题。

想必大家一定听说过数据倾斜，也知道很多的解决方案，但是你是否知道哪些算子最容易发生数据倾斜，对应的解决方案又有哪些呢？比如最常见的热门算子：join、group by、count(distinct)、row_number【数据倾斜出现频率从高至低】

本文将会从数据倾斜定义、如何分析数据倾斜、解决方案三个方面来剖析数据倾斜问题

数据倾斜定义

定义：通俗来讲，一张表中某个或某些特定值出现的频次远大于其他数值，这样就会导致某个或某些task处理的数据量远超过其他task，因此发生数据倾斜。

举例：下图是计算所有大学生每门技术的学习人数，可以发现学习hadoop的人数远大于spark，那么处理hadoop的task的压力就会更大，导致数据倾斜。

alt

如何分析数据倾斜

确诊问题（判断问题是不是数据倾斜）
定位问题（判断具体是哪段代码发生数据倾斜）
分析问题（分析造成数据倾斜的原因是什么）

alt

具体来讲：

打开sparkui界面，查看所有stage的执行时长，是否存在某个或某几个stage执行时长大大超过了其余stage的平均时长
获取执行时长最长的stage的id，到DAG图中进行搜索，找到对应的执行代码
通过Python/SQL分析代码涉及到所有表的shuffle key的分布，观察是否存在某个key分布较集中

解决方案

Join

两种情况，一种是大小表join，一种是大大表join

大小表join：开启mapjoin即可

-- b是小表（MB级及以下） a是大表（GB及以上）
select /*+mapjoin(b)*/
    a.*
from a
left join b
on a.id = b.id

大大表join：

【存在热点值】：拆分热点和非热点

-- 1.识别表a的热点key，并保存在tmp表中
-- 2.热点key和表b进行join
-- 3.非热点key和表b进行join
-- 4.将2和3的结果合并一起
select /*+mapjoin(a)*/a.id, a.name, b.score
from (select * from a where a.id in (select id from tmp)) a
join b
on a.id = b.id
union all
select a.id, a.name, b.score
from (select * from a where a.id not in (select id from tmp)) a
join b
on a.id = b.id

【不存在热点值】：采用分桶join

  create table t (
      a string,
      b string
  ) 
  partitioned by (dt string)
  clustered by (b) into 2048 buckets;

Group By

加盐打散

-- 优化前sql
select id, count(*)
from t 
group by id
;
-- 优化后sql
select 
    t.id,
    sum(t.cnt)
from (
    select 
        id, 
        case when id in ('1001','1002') then cast(rand() * 100 as bigint), 
        count(*) as cnt
    from t
    group by 
        id, 
        case when id in ('1001','1002') then cast(rand() * 100 as bigint)
) t
group by t.id
;

Count Distinct

-- 优化前sql
select dt, count(distinct user_id) as cnt
from t
group by dt 
;

方式1：两阶段聚合+加盐打散

select 
    split(rand_dt, '_')[1] as dt,
    count(*) as cnt
from (
    select 
        concat(cast(rand() * 10 as bigint), '_', dt) as rand_dt
        user_id
    from t
    group by 
        concat(cast(rand() * 10 as bigint), '_', dt)
        user_id
) t
group by split(rand_dt, '_')[1]
;

方式2：构建bitmap

select 
    dt, 
    getcardinality(idbits) as cnt  -- 2. 计算基数
from (
    -- 1.转换为bit
    select 
        dt, 
        id2bit(user_id) as idbits
    from t
) t
group by dt

Row_number

加盐打散

-- 需求：计算每个用户的成绩排名（假设大量用户id进入到同一个reduce进行计算）
-- 优化前sql
select 
    uid, score, 
    row_number() over(partition by uid order by score desc) rk
from t

-- 优化后sql
select 
    uid, score, 
    row_number() over(partition by uid, bucket order by score desc) rk
from （
    select 
        uid, score, cast(rand() * 10 as bigint) as bucket
    from t
）t

下期预告

关于数据治理，我有些话要说

#数据人的面试交流地##校招过来人的经验分享##2025届提前批#

全部评论

推荐最新楼层

中山大学大数据开发工程师

佬问一下最后row_number那里加盐打散partition by uid,bucket后结果与上一段partition by uid为什么相同呢

点赞

送花回复分享

发布于 06-30 17:21 河南

放风筝牵线

06-29 20:17

百度_电商技术部_大数据开发工程师

字节跳动大数据开发工程师一面面经（社招）

1、自我介绍2、跳槽理由3、介绍团队4、自己感觉做的最好的项目(扣的很细，聊了很久)5、遇到过的技术问题6、数据倾斜如何解决7、缓慢变化维怎么解决8、周期变化事实数据，比如七天累计订单表应该放哪一层？为什么？9、什么数仓才算一个好的数仓10、雪花模型跟星型模型区别11、写sql题12、反问面了三家 淘天、字节、pdd，都offer了，这个草稿也是当时写的一直忘发了，后面有空我回忆一下把面经补上来，绝了其实吧，感觉low t在大厂之间面试难度区别不大(淘天某个团队除外，技术确实难)，肚子里有点货+背景+对方真的在招人就行了

查看11道真题和解析

点赞评论收藏

分享

06-29 13:20

东南大学 Java

6.28 中睿信-日常

自我介绍项目几个人开发 ？ 你负责什么部分？框架构建的时候，应该考虑哪些问题？哪些应在框架里做 哪些应在业务层做？系统中的异常是怎么定义和处理的？项目中的事务是怎么使用的？事务的使用和高并发场景的关联？事务是什么？说说定义dubbo是什么？业务中难点在哪？网关的定制开发做了什么？路由转发用了什么规则？Redis的数据类型有哪些？如何引入redis？sql语句写的多吗？k8s用过哪些组件？反问：公司具体做什么业务总结：总共20min左右 小厂的面试风格很不一样   很少有常见的八股   问题都是想看是否真实地做过项目

查看14道真题和解析

点赞评论收藏

分享

06-29 17:04

广州大学产品经理

Web3短剧和传统影视行业如何进行整合呢

Web3短剧与传统影视行业的整合，可以从以下几个方面进行：一、技术层面的整合1.利用区块链技术实现去中心化创作与分发：Web3短剧可以利用区块链技术，将传统影视行业的创作和分发过程进行去中心化。创作者可以直接在链上发布作品，观众通过链上支付观看，去除中间环节，降低成本。2.NFT技术的应用：通过NFT技术，Web3短剧可以将传统影视中的角色、道具、场景等元素转化为数字资产，观众可以购买并持有这些资产，实现粉丝经济的新模式。3.版权保护机制：区块链技术为Web3短剧提供了不可篡改、可追溯的版权保护机制。创作者可以在链上注册版权，并通过智能合约自动执行版权费用的分配，有效保护创作者的权益。二、内容...

点赞评论收藏

分享

想被叫靓仔的小松鼠被升职

06-29 13:18

黑龙江科技大学大数据开发工程师

#牛客在线求职答疑中心# 请问亚信大数据开发笔试题型是什么？

牛客在线求职答疑中心

点赞评论收藏

分享

06-06 16:57

奇安信_信息安全工程师(准入职员工)

奇安信暑期实习内推

看见很多自己内推的牛友没进面很难受，瞅了一圈简历，给大家几个简历小tip， 1.自我评价，重点强调为什么自己能胜任xx工作（尤其是非技术类） 2.工作经历公式  【star法则】  实习部分做的和岗位JD越贴合越好 3.校园经历，只挑跟应聘岗位相关的写，展现自己职业规划清晰奇安信2025届暑期实习内推码【DS5mfqSV】4.22启动，米哈游，可转正！快来加入网安一哥！公司简介国资背景，科创板“网安一哥”，网络安全领域top1，新一代网络安全领军者！【招聘岗位】安全类、研发类、测试类、营销类、产品类、技术支持类【招聘对象】25届实习生奇安信内推码：DS5mfqSV奇安信内推码：DS5mfqSV...

投递奇安信等公司10个岗位 >

点赞评论收藏

分享

4 6 评论

招聘动态

博士生职位汇总

25届高薪提前批开启

全站热榜

正在热议

# 打工人的辛酸 #

11957次浏览 196人参与

# 投递实习岗位前的准备 #

809940次浏览 13946人参与

# 极具前瞻性，现代汽车编程题 #

28811次浏览 512人参与

# 机械制造投递记录 #

159718次浏览 2733人参与

# 机械人怎么评价今年的华为 #

98197次浏览 757人参与

# 应届生应该先就业还是先择业 #

16988次浏览 149人参与

# 不去互联网可以去金融科技 #

65694次浏览 622人参与

# 晒一晒我的offer #

4369640次浏览 63326人参与

# 25届如何提前做秋招准备？ #

43984次浏览 1011人参与

# 想辞职但是不敢的原因 #

4204次浏览 65人参与

# 如何一边实习一边秋招 #

433842次浏览 6563人参与

# 实习生如何通过转正 #

33671次浏览 417人参与

# 我的简历长这样 #

47388次浏览 940人参与

# 摸鱼打卡站 #

10877次浏览 549人参与

# 你后悔选择现在的专业吗 #

12214次浏览 175人参与

# 你的秋招进行到哪一步了 #

470213次浏览 7356人参与

# 没有实习经历，还有机会进大厂吗 #

493592次浏览 9644人参与

# 我的上岸简历长这样 #

253405次浏览 4862人参与

# 如果校招重来我最想改变的是 #

107352次浏览 1699人参与

# 机械制造笔面经 #

65667次浏览 1322人参与

106240次浏览 1825人参与

# 我的成功项目解析 #

111154次浏览 3010人参与

牛客网
牛客企业服务