Hive专项练习 4

  1. Hive存储格式
  • textFile、SequenceFile 行式存储
  • ORC、PARQUET列式存储
  • textFile默认存储格式,导入数据时直接把数据文件拷贝到HDFS上,不进行处理
  • SequenceFile、ORC、PARQUET 格式的表,不能直接从本地导入数据
    • Hive 先存储为textFile格式
    • 再从textFile表中用insert导入目标表中,转为为指定格式
  1. SequenceFile格式
  • <key,value> 的形式序列化到文件中
  • 文件和Hadoop api 中的MapFile是相互兼容的:可序列化是分布式大数据系统的常见属性
  • 可进行分割、压缩,常见为Block压缩
  • 二进制文件格式,行存储更紧凑,可拆分和并行处理;但不方便查看
  1. Hive SQL编译
  • Hive SQL的Parser层,是为了将SQL转为抽象语法树AST Tree
  • 编译器遍历AST Tree,抽象出查询的基本组成单元QueryBlock
  • 遍历QueryBlock,将其转换为OperatorTree
  • 逻辑层优化器进行OperatorTree优化,合并不必要的ReduceSinkOperator,减少shuffle数据量
  • 遍历OperatorTree,将其转化为MapReduce任务
  • 物理层优化器进行MapReduce任务的变换,生成执行计划
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

评论
点赞
2
分享
牛客网
牛客企业服务