Hive 专项练习 10
- Hive 特性
- 一般不需要重启服务就可以扩展内存
- Hive具有良好的容错性,节点出现问题,SQL仍能成功执行
- 用户可以上传自定义函数jia包提交到Hive环境中,注册后使用
- Hive 数据模型
- 内部表、外部表、分区、分桶
- Hive默认分隔符是^A(\001),使用ASCII码
- Parquet 格式
- 支持压缩编码:uncompressed、snappy,gzip,lzo
- snappy具有更好的压缩性能
- gzip具有更好的压缩比
- Hive 0.13版本才支持Parquet格式
- join优化
- 大表Join小表,将小表放在前执行效率更高,Hive会将小表进行缓存,且执行计划不一样;新版Hive进行了优化,执行效率是一样的
- 大表Join小表,使用Map Join 会极大地提升性能:
- 把小表的数据发送到每台机器的磁盘中,
- 然后供每台机器上的task读取到内存中与大表join
- 大表 Join 大表,可以尝试将一个表进行裁剪、列裁剪,将大表Join大表转为大表Join小表
- WITH AS 本身不支持嵌套子查询
Hive专项练习 文章被收录于专栏
Hive专项练习错题