Hive 专项练习 10

  1. Hive 特性
  • 一般不需要重启服务就可以扩展内存
  • Hive具有良好的容错性,节点出现问题,SQL仍能成功执行
  • 用户可以上传自定义函数jia包提交到Hive环境中,注册后使用
  1. Hive 数据模型
  • 内部表、外部表、分区、分桶
  • Hive默认分隔符是^A(\001),使用ASCII码
  1. Parquet 格式
  • 支持压缩编码:uncompressed、snappy,gzip,lzo
  • snappy具有更好的压缩性能
  • gzip具有更好的压缩比
  • Hive 0.13版本才支持Parquet格式
  1. join优化
  • 大表Join小表,将小表放在前执行效率更高,Hive会将小表进行缓存,且执行计划不一样;新版Hive进行了优化,执行效率是一样的
  • 大表Join小表,使用Map Join 会极大地提升性能:
    • 把小表的数据发送到每台机器的磁盘中
    • 然后供每台机器上的task读取到内存中与大表join
  • 大表 Join 大表,可以尝试将一个表进行裁剪、列裁剪,将大表Join大表转为大表Join小表
  1. WITH AS 本身不支持嵌套子查询
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

10-05 23:02
东北大学 Java
我说句实话啊:那时候看三个月培训班视频,随便做个项目背点八股,都能说3 40w是侮辱价
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务