Hive专项练习 4
- Hive存储格式
- textFile、SequenceFile 行式存储
- ORC、PARQUET列式存储
- textFile默认存储格式,导入数据时直接把数据文件拷贝到HDFS上,不进行处理
- SequenceFile、ORC、PARQUET 格式的表,不能直接从本地导入数据
- Hive 先存储为textFile格式
- 再从textFile表中用insert导入目标表中,转为为指定格式
- SequenceFile格式
- 以 <key,value> 的形式序列化到文件中
- 文件和Hadoop api 中的MapFile是相互兼容的:可序列化是分布式大数据系统的常见属性
- 可进行分割、压缩,常见为Block压缩
- 二进制文件格式,行存储更紧凑,可拆分和并行处理;但不方便查看
- Hive SQL编译
- Hive SQL的Parser层,是为了将SQL转为抽象语法树AST Tree
- 编译器遍历AST Tree,抽象出查询的基本组成单元QueryBlock
- 遍历QueryBlock,将其转换为OperatorTree
- 逻辑层优化器进行OperatorTree优化,合并不必要的ReduceSinkOperator,减少shuffle数据量
- 遍历OperatorTree,将其转化为MapReduce任务
- 物理层优化器进行MapReduce任务的变换,生成执行计划
Hive专项练习 文章被收录于专栏
Hive专项练习错题