2024-08-01 10:20 已编辑天津师范大学大数据开发工程师发布于河北

关注

Hive专项练习 5

Hive数据倾斜

原因
- 业务数据本身存在不均匀的情况
- 关联字段重复数据较多
- Key分布不均
- 不同数据类型关联：ID字段既有string类型又有int类型，当按照ID字段进行两表join时，Hash默认按int类型进行匹配，导致所有的string类型的ID值都分配到一个reduce里
解决
- 了解业务数据，找出明显的问题点，帮助解决数据倾斜问题
- 合并小文件一定程度上会缓解数据清洗
- 适当通过控制mapper和reducer优化Hive作业的执行效率，来控制数据倾斜问题
- 选择数据分布均匀的主表作为驱动表，做好列值裁剪
- 大表join小表，使用map join小表首先进入内存在map端完成reduce
- 大表join大表，空key过滤
- 把数字类型转换成字符串类型

Hive metastore 的三种模式

Derby 内嵌模式，默认启动的方式，一般用于单元测试；Derby模式同一时间只能有一个进程连接使用数据库
Local模式：使用本地MySQL部署实现metastore
Remote模式：远程MySQL部署实现metastore，一般用于生产环境

Hive内部表默认存储配置：hive.metastore.warehouse.dir (/user/hive/warehouse)
Hive外部表不指定 LOCATION 时，将在HDFS上的 /user/hive/warehouse 文件夹下以外部表的表名创建一个文件夹，将表数据存放在这里
Hive 查询通常延迟较高的原因

由于没有索引，需要扫描整个表
MapReduce 本身具有较高的响应延迟，主要需要向 Yarn 申请资源
相较于关系型数据库，Hive底层基于文件系统实现，执行延迟较低

Hive专项练习文章被收录于专栏

Hive专项练习错题

全部评论

推荐最新楼层

05-16 16:18

广东创安教育服务有限公司怎么样

真实入职体验与公司测评 最近在牛客上看到不少人问广东创安教育服务有限公司怎么样、值不值得投，作为在职员工，我从公司背景、工作氛围、薪资福利、成长空间几个方面说点真实感受，给求职的同学一个参考。 一、公司概况：正规稳健，行业扎根深 创安教育2016年成立，注册资本1000万，位于广州黄埔TCL文化产业园，是广东省应急管理厅备案的特种作业培训点，主营低压/高压电工等职业技能培训，同时做考试软硬件研发，有国家专利，还中标过广东电网培训项目，业务扎实、经营稳定。 办公环境干净整洁，培训场地800㎡+，实操设备齐全，日常办公、培训、都在园区内，通勤吃饭很方便。 二、工作氛围：简单务实，无内耗 团队规模不...

TCL公司福利 1293人发布

点赞评论收藏

分享

05-20 13:31

山东大学运营

用户运营和策略运营简历求锐评：经验不满一年就这么难找工作吗？

目前工作10个月，再投简历中，想从事用户运营和策略运营，求各位大佬对简历进行指导。如果能需要增加相关面试经验的分享给就更好啦！！！

我的求职进度条

点赞评论收藏

分享

05-09 15:06

福建农林大学测试开发

有没有牛牛大的知道这是什么意思啊

求好运眷顾🙏🏻：翻译：面试前没盘点好hc一下面太多了，现在在排序回去等通知

点赞评论收藏

分享

04-15 14:28

已编辑

27届学院本简历求指点

投的Java岗位，全是已读不回，孩子没招了😭

程序员小白条：学院+两段经典项目+技术栈，最大众的简历，纯看运气

点赞评论收藏

分享

05-20 17:45

贵州大学 Java

27届简历求大佬指点

为什么一个面试都没有啊

点赞评论收藏

分享

评论

1

收藏

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 26届春招投递记录 #

36302次浏览 305人参与

# 你今年的平均薪资是多少？ #

230091次浏览 1069人参与

# 如何成为1个AI工程师？ #

5655次浏览 280人参与

# 携程笔试 #

180010次浏览 928人参与

# 27届实习投递记录 #

121354次浏览 1378人参与

# 我想象的实习vs现实的实习 #

340722次浏览 2316人参与

# 求职你最看重什么？ #

170351次浏览 915人参与

# 秋招提前批，你开始投了吗 #

766556次浏览 8495人参与

# 工作丧失热情的瞬间 #

401218次浏览 2589人参与

# 要毕业了，再不说就来不及了 #

9055次浏览 153人参与

# 哪些公司校招卡第一学历 #

262416次浏览 879人参与

# 硬件人的简历怎么写 #

349616次浏览 3141人参与

# 国庆假期，给大脑放个假 #

26936次浏览 121人参与

# 你在职场上见过哪些“水货”同事 #

41959次浏览 179人参与

# 机械人的秋招小目标 #

32936次浏览 251人参与

# 面试被问第一学历差时该怎么回答 #

297127次浏览 2306人参与

# 你觉得机械有必要实习吗 #

89048次浏览 537人参与

# AI面会问哪些问题？ #

136697次浏览 3677人参与

# 提名点击就挂的公司 #

146696次浏览 494人参与

# 听到哪句话就代表面试稳了or挂了？ #

271316次浏览 1733人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务