Hive专项练习 4

  1. Hive存储格式
  • textFile、SequenceFile 行式存储
  • ORC、PARQUET列式存储
  • textFile默认存储格式,导入数据时直接把数据文件拷贝到HDFS上,不进行处理
  • SequenceFile、ORC、PARQUET 格式的表,不能直接从本地导入数据
    • Hive 先存储为textFile格式
    • 再从textFile表中用insert导入目标表中,转为为指定格式
  1. SequenceFile格式
  • <key,value> 的形式序列化到文件中
  • 文件和Hadoop api 中的MapFile是相互兼容的:可序列化是分布式大数据系统的常见属性
  • 可进行分割、压缩,常见为Block压缩
  • 二进制文件格式,行存储更紧凑,可拆分和并行处理;但不方便查看
  1. Hive SQL编译
  • Hive SQL的Parser层,是为了将SQL转为抽象语法树AST Tree
  • 编译器遍历AST Tree,抽象出查询的基本组成单元QueryBlock
  • 遍历QueryBlock,将其转换为OperatorTree
  • 逻辑层优化器进行OperatorTree优化,合并不必要的ReduceSinkOperator,减少shuffle数据量
  • 遍历OperatorTree,将其转化为MapReduce任务
  • 物理层优化器进行MapReduce任务的变换,生成执行计划
Hive专项练习 文章被收录于专栏

Hive专项练习错题

全部评论

相关推荐

不愿透露姓名的神秘牛友
03-19 10:38
实力求职者:真的绷不住了,第一张霸总人设,第二张求生欲拉满
点赞 评论 收藏
分享
03-26 13:04
已编辑
电子科技大学 算法工程师
xiaowl:你这个简历“条目上”都比较有深度性,但是实际上面试官又没法很好的评估你是怎么达到很多看上去很厉害的结果的。要避免一些看上去很厉害的包装,比如高效的内存复用策略的表达,如果仅是简单的一些内存共享机制,而且面试上也没有深挖的空间,就不要这样表达。比如,工程化模式本质上可能就是定义了一些abstract class,那也就没特别多值得讲的内容。建议简历上应该侧重那些你花了大量时间和精力解决、研究的问题,不要过分追求“丰富”,而是关注在技术深入度、问题解决能力的表现上。
没有实习经历,还有机会进...
点赞 评论 收藏
分享
评论
点赞
2
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务