摸鱼等退休

2022-10-30 21:54 门头沟学院项目经理发布于广东

关注

面试官：“你们实际生产中hive用什么文件格式和压缩方式”

hive 存储格式有很多，但常用的一般是 TextFile、ORC、Parquet 格式，在我们单位最多的也是这三种。

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据，要先导入到 TextFile 格式的表中，再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定，一般默认这种格式，以这种格式存储的文件，可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割，建表时需要指定分隔符。

不会对文件进行压缩，因此直接fetch数据的时候会比较快，因为不需要解压缩；但也因此更占用存储空间。

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC，文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩，默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高，Snappy 效率比 Zlib 高。

这几种压缩方式都不支持文件分割，所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

因此若压缩文件较大，处理该文件的时间比处理其它普通文件的时间要长，造成数据倾斜。

另外，hive 建事务表需要指定为 orc 存储格式。

ORC 格式如下所示：

stripe：存储数据的地方，包括实际数据、数据的索引信息
index data：保存了数据在 stripe 中位置的索引信息
rows data：数据实际存储的地方,数据以流的形式进行存储
stripe footer：保存数据所在的文件目录
file footer：包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
postscript：含有压缩参数和压缩大小相关的信息

三、Parquet

Parquet 也是列式存储。

建表时需指定 STORED AS PARQUET，文件存储方式为二进制文件。

可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO。默认值为 UNCOMPRESSED，表示页的压缩方式

行组(Row Group)：每一个行组包含一定的行数，在一个HDFS文件中至少存储一个行组，类似于orc的stripe的概念。
列块(Column Chunk)：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的，不同的列块可能使用不同的算法进行压缩。

四、三者对比

同样的数据，TextFile 为 2.4G 的情况下，将原数据存放为 ORC 以及 Parquet 格式后，其占用存储大小以及查询效率大致如下：

由此可以看出压缩比：ORC > Parquet > TextFile

在只有 Fecth 的情况下，由于 TextFile 不需要解压缩，因此效率较高。

对于需要 MapReduce 操作的查询，效率：ORC >= Parquet > TextFile

当然，这只是我自己简单的测试，有些变量并没有控制好。

比如在单个文件比较大的情况下，可能 Parquet 的效率会比较高。

在实际生产中，使用 Parquet 存储 lzo 压缩的方式比较常见，这种情况下可以避免由于读取不可分割的大文件引发的数据倾斜。

但是，如果数据量并不大，使用 ORC 存储 snappy 压缩的效率还是非常高的；对于需要事务的场景，还是用 ORC。

至于要用哪种存储格式，需要基于自身业务进行考量。

今天的分享到这里就结束了，如果觉得写的不错的话，可以随手点个赞和关注！

#hive##数据开发工程师##面经分享#

大数据从入门到放弃文章被收录于专栏

写点大数据相关的内容，一起交流进步

全部评论

推荐最新楼层

03-26 18:03

门头沟学院机器学习

阿里0325笔试

今天得空review了一下昨晚的笔试，AI研发方向的，整体上有一定的难度，感觉自己答得还可以吧，期待给个面试机会 20 道选择 + 3 道编程 + 1 道 Prompt，T1 签到，T2 贪心一眼秒，T3 是个数位 DP 有点东西，T4 Prompt 题考的是让 AI 算出租车费。 选择题概览 选择题一半 AI 一半 CS 基础，AI 方向的占比还是挺高的。 AI/Agent 相关的大概考了这些：Transformer 的 teacher forcing 训练推理差异、MHA/MQA/GQA 注意力机制对比、LangChain 和 LangGraph 的关系、ReAct 的机制边界、multi...

点赞评论收藏

分享

03-24 09:28

门头沟学院 Java

SpringBoot项目启动的过程

ps：如果这篇帖子对于还在找工作和找实习的你有所帮助，可以关注我，给本贴点赞、评论、收藏并订阅专栏；同时不要吝啬您的花花SpringBoot启动并非简单的main方法执行，而是一套标准化、自动化的容器初始化流程，核心围绕SpringApplication.run()方法展开，全程可分为启动初始化、环境准备、上下文刷新、服务器启动、完成回调五大核心阶段，兼顾依赖注入、自动配置、内置容器启动等核心特性。第一阶段：启动入口与SpringApplication初始化所有SpringBoot项目的启动入口，都是标注@SpringBootApplication的主类中的main方法，这是整个流程的起点。1...

点赞评论收藏

分享

03-20 20:48

曲阜师范大学测试开发

六面字节终oc 我的暑期结束了

timeline过年前就约的年后三月份的面试2026 3.05 一面2026 3.10 二面（挂）2026 3.13 二面2026 3.16 hr面2026 3.19 口头oc2026 3.20 offer两道手撕无重复字符最长子串数组中能组成小于n的最大数字记录一下 不多写什么了 同时也感谢平台上以前发面经的佬们记录的一些手撕题目 刷一刷颇有成长

在人才库的椰子很可爱：看来字节很喜欢出无重复字符最长子串，我前几天社招一面也是这题

我的OC时间线

点赞评论收藏

分享

03-23 09:02

吉林农业大学算法工程师

网易 AI Agent 开发一面

1. Transformer 的自注意力机制、位置编码、梯度消失和梯度爆炸的解决方案答：自注意力机制的核心是让每个 token 在计算表示时都能和序列中其他 token 交互。给定输入 (X)，先通过线性变换得到 (Q)、(K)、(V)：然后计算注意力：这里除以 根号下dk 是为了防止点积过大导致 softmax 进入饱和区，影响梯度。多头注意力就是把表示拆成多个子空间并行计算，最后再拼接，能从不同角度学习依赖关系。位置编码是因为 Attention 本身不包含顺序信息，所以需要显式加入位置信息。经典做法是正余弦位置编码：现在也常用相对位置编码和 RoPE。梯度消失和梯度爆炸的解决方案包括：残...

AI-Agent面试实战...

点赞评论收藏

分享

评论

3

13

招聘动态

米哈游2026校园招聘

应届生春招&全年实习生专项

新华三

2026届春季校园招聘

联想

27届暑期实习

奥克斯集团

2026春季校园招聘

厦门银行

2026届春季校园招聘

联想

26届补录

携程集团

2026年春季校园招聘

AI网申助手

网申字段一键填写

27届校招宝典

滴滴

2026届春季校招

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 你的实习产出是真实的还是包装的？ #

22968次浏览 371人参与

# 参加完秋招的机械人，还参加春招吗？ #

119677次浏览 754人参与

# 厦门银行科技岗值不值得投 #

9057次浏览 218人参与

# 找AI工作可以去哪些公司？ #

13756次浏览 563人参与

# 从事AI岗需要掌握哪些技术栈？ #

12480次浏览 647人参与

# 你做过最难的笔试是哪家公司 #

42403次浏览 562人参与

# 米连集团26产品管培生项目 #

14014次浏览 288人参与

# 想给25届机械人的秋招建议 #

47613次浏览 251人参与

# AI面会问哪些问题？ #

32887次浏览 881人参与

# 金三银四，你的春招进行到哪个阶段了？ #

23620次浏览 295人参与

# 中国电信笔试 #

32877次浏览 303人参与

# 这些公司卡简历很严格 #

94845次浏览 413人参与

# 携程笔试 #

139016次浏览 837人参与

# 拼多多集团-PDD笔试 #

36422次浏览 343人参与

# 一人说一个提前实习的好处 #

118301次浏览 711人参与

# 投递几十家公司，到现在0offer，大家都一样吗 #

342252次浏览 2186人参与

# 说说你知道的学历厂 #

390797次浏览 1379人参与

# 哪些公司真双非友好？ #

70316次浏览 291人参与

# 国企/银行/研究所公司爆料 #

201533次浏览 909人参与

# 一张图晒出你司的标语 #

4928次浏览 84人参与

# 阿里笔试 #

181405次浏览 1330人参与

# 第一份工作一定要去大厂吗 #

16984次浏览 139人参与

牛客网
牛客网在线编程
牛客网题解
牛客企业服务