Hive专项练习 5

  1. Hive数据倾斜
  • 原因
    • 业务数据本身存在不均匀的情况
    • 关联字段重复数据较多
    • Key分布不均
    • 不同数据类型关联:ID字段既有string类型又有int类型,当按照ID字段进行两表join时,Hash默认按int类型进行匹配,导致所有的string类型的ID值都分配到一个reduce里
  • 解决
    • 了解业务数据,找出明显的问题点,帮助解决数据倾斜问题
    • 合并小文件一定程度上会缓解数据清洗
    • 适当通过控制mapper和reducer优化Hive作业的执行效率,来控制数据倾斜问题
    • 选择数据分布均匀的主表作为驱动表,做好列值裁剪
    • 大表join小表,使用map join小表首先进入内存在map端完成reduce
    • 大表join大表,空key过滤
    • 把数字类型转换成字符串类型
  1. Hive metastore 的三种模式
  • Derby 内嵌模式,默认启动的方式,一般用于单元测试;Derby模式同一时间只能有一个进程连接使用数据库
  • Local模式:使用本地MySQL部署实现metastore
  • Remote模式:远程MySQL部署实现metastore,一般用于生产环境
  1. Hive内部表默认存储配置:hive.metastore.warehouse.dir (/user/hive/warehouse)

  2. Hive外部表不指定 LOCATION 时,将在HDFS上的 /user/hive/warehouse 文件夹下以外部表的表名创建一个文件夹,将表数据存放在这里

  3. Hive 查询通常延迟较高的原因

  • 由于没有索引,需要扫描整个表
  • MapReduce 本身具有较高的响应延迟,主要需要向 Yarn 申请资源
  • 相较于关系型数据库,Hive底层基于文件系统实现,执行延迟较低
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

评论
1
收藏
分享
牛客网
牛客企业服务