Hive专项练习 5
- Hive数据倾斜
- 原因
- 业务数据本身存在不均匀的情况
- 关联字段重复数据较多
- Key分布不均
- 不同数据类型关联:ID字段既有string类型又有int类型,当按照ID字段进行两表join时,Hash默认按int类型进行匹配,导致所有的string类型的ID值都分配到一个reduce里
- 解决
- 了解业务数据,找出明显的问题点,帮助解决数据倾斜问题
- 合并小文件一定程度上会缓解数据清洗
- 适当通过控制mapper和reducer优化Hive作业的执行效率,来控制数据倾斜问题
- 选择数据分布均匀的主表作为驱动表,做好列值裁剪
- 大表join小表,使用map join小表首先进入内存在map端完成reduce
- 大表join大表,空key过滤
- 把数字类型转换成字符串类型
- Hive metastore 的三种模式
- Derby 内嵌模式,默认启动的方式,一般用于单元测试;Derby模式同一时间只能有一个进程连接使用数据库
- Local模式:使用本地MySQL部署实现metastore
- Remote模式:远程MySQL部署实现metastore,一般用于生产环境
-
Hive内部表默认存储配置:hive.metastore.warehouse.dir (/user/hive/warehouse)
-
Hive外部表不指定 LOCATION 时,将在HDFS上的 /user/hive/warehouse 文件夹下以外部表的表名创建一个文件夹,将表数据存放在这里
-
Hive 查询通常延迟较高的原因
- 由于没有索引,需要扫描整个表
- MapReduce 本身具有较高的响应延迟,主要需要向 Yarn 申请资源
- 相较于关系型数据库,Hive底层基于文件系统实现,执行延迟较低
Hive专项练习 文章被收录于专栏
Hive专项练习错题