摸鱼等退休

2022-10-30 21:54 门头沟学院项目经理发布于广东

关注

面试官：“你们实际生产中hive用什么文件格式和压缩方式”

hive 存储格式有很多，但常用的一般是 TextFile、ORC、Parquet 格式，在我们单位最多的也是这三种。

hive 默认的文件存储格式是 TextFile。

除 TextFile 外的其他格式的表不能直接从本地文件导入数据，要先导入到 TextFile 格式的表中，再从表中用 insert 导入到其他格式的表中。

一、TextFile

TextFile 是行式存储。

建表时无需指定，一般默认这种格式，以这种格式存储的文件，可以直接在 HDFS 上 cat 查看数据。

可以用任意分隔符对列分割，建表时需要指定分隔符。

不会对文件进行压缩，因此直接fetch数据的时候会比较快，因为不需要解压缩；但也因此更占用存储空间。

二、ORCFile

ORCFile 是列式存储。

建表时需指定 STORED AS ORC，文件存储方式为二进制文件。

Orc表支持None、Zlib、Snappy压缩，默认支持Zlib压缩。

Zlib 压缩率比 Snappy 高，Snappy 效率比 Zlib 高。

这几种压缩方式都不支持文件分割，所以压缩后的文件在执行 Map 操作时只会被一个任务所读取。

因此若压缩文件较大，处理该文件的时间比处理其它普通文件的时间要长，造成数据倾斜。

另外，hive 建事务表需要指定为 orc 存储格式。

ORC 格式如下所示：

stripe：存储数据的地方，包括实际数据、数据的索引信息
index data：保存了数据在 stripe 中位置的索引信息
rows data：数据实际存储的地方,数据以流的形式进行存储
stripe footer：保存数据所在的文件目录
file footer：包含了文件中 stripe 的列表,每个 stripe 的行数,以及每个列的数据类型。它还包含每个列的最小值、最大值、行计数、求和等聚合信息。
postscript：含有压缩参数和压缩大小相关的信息

三、Parquet

Parquet 也是列式存储。

建表时需指定 STORED AS PARQUET，文件存储方式为二进制文件。

可以使用的压缩方式有 UNCOMPRESSED、 SNAPPY、GZP和LZO。默认值为 UNCOMPRESSED，表示页的压缩方式

行组(Row Group)：每一个行组包含一定的行数，在一个HDFS文件中至少存储一个行组，类似于orc的stripe的概念。
列块(Column Chunk)：在一个行组中每一列保存在一个列块中，行组中的所有列连续的存储在这个行组文件中。一个列块中的值都是相同类型的，不同的列块可能使用不同的算法进行压缩。

四、三者对比

同样的数据，TextFile 为 2.4G 的情况下，将原数据存放为 ORC 以及 Parquet 格式后，其占用存储大小以及查询效率大致如下：

由此可以看出压缩比：ORC > Parquet > TextFile

在只有 Fecth 的情况下，由于 TextFile 不需要解压缩，因此效率较高。

对于需要 MapReduce 操作的查询，效率：ORC >= Parquet > TextFile

当然，这只是我自己简单的测试，有些变量并没有控制好。

比如在单个文件比较大的情况下，可能 Parquet 的效率会比较高。

在实际生产中，使用 Parquet 存储 lzo 压缩的方式比较常见，这种情况下可以避免由于读取不可分割的大文件引发的数据倾斜。

但是，如果数据量并不大，使用 ORC 存储 snappy 压缩的效率还是非常高的；对于需要事务的场景，还是用 ORC。

至于要用哪种存储格式，需要基于自身业务进行考量。

今天的分享到这里就结束了，如果觉得写的不错的话，可以随手点个赞和关注！

#hive##数据开发工程师##面经分享#

大数据从入门到放弃文章被收录于专栏

写点大数据相关的内容，一起交流进步

全部评论

推荐最新楼层

04-08 14:27

中南大学 C++

双一流本海硕游戏程序员失业，面了两个月几乎一无所获，面对行业要求提升该死磕还是转行？

今天给大家分享的是一位粉丝的提问，双一流本海硕游戏程序员失业，面了两个月几乎一无所获，面对行业要求提升该死磕还是转行？接下来把粉丝的具体提问和我的回复分享给大家，希望也能给一些类似情况的小伙伴一些启发和帮助。同学提问：背景：坐标一线。某双一流科本+某海外科硕，去年底被离职，年龄30+。情况：大学前对编程没有概念，因为当时喜欢玩moba才选的科班专业。及格线混完毕业后，踩上了虚幻和VR的风口。用蓝图做了几年VR后（写普通逻辑），又先后去游戏大厂和外企用C++当小弟。工作内容都是基础业务逻辑的二次开发，没有原创和核心业务。算法能力也弱，对游戏编程说不上热爱。随着工龄增加，单位对自己的要求增高，发...

计算机就业职业规划辅导

点赞评论收藏

分享

04-12 22:17

已编辑

东北大学 Java

26届暑期实习TimeLine

目前拿到几家offer，自己的暑期实习面试应该告一段落了，发个贴来记录一下自己的暑期实习TimeLine。个人背景：本科 东北大学-物联网工程；硕士 东北大学-计算机技术；有一段中小厂实习经历暑期实习TimeLine：腾讯：简历投递 2.23TEG_数据平台部：一面 3.8二面 3.12IEG_游戏前沿技术：一面 3.12二面 3.21WXG_微信支付：3.31捞起，但有offer并且准备近期入职，感觉没有时间面试，已拒。可惜最终也没能戴上鹅的红围脖。京东：简历投递 2.25京东物流_技术与数据智能部：一面 3.24二面 3.24三面 3.25OC 3.26感觉东哥非常强烈地想要我，不仅流程很...

我的OC时间线

点赞评论收藏

分享

04-08 22:46

河南师范大学 Java

一个面试约不到，佬们情况都咋样啊😭😭

牛客156169118号：太杂太乱了，专业技能精简一点，自我评价扔了

点赞评论收藏

分享

评论

3

14

招聘动态

理想汽车

2025春季校园招聘

26届投递链接合集

26届实习软件笔试必刷题单

招商银行数字金融训练营

火热报名中

携程集团

25届校招+26届实习

字节跳动Tik Tok

26届实习招聘

26届实习求职交流群

26届实习生双选会报名开启

联想

25届校招+26届实习

字节跳动

25届补录&26届实习

全站热榜

更多

创作者周榜

更多

正在热议

更多

# 春招进度记录 #

28140次浏览 204人参与

# 一觉醒来，秋招难度下降一万倍…… #

58420次浏览 493人参与

# 实习进度记录 #

27346次浏览 205人参与

# 诺瓦星云求职进展汇总 #

186515次浏览 1589人参与

# 软开人，说说你的烦心事 #

32409次浏览 167人参与

# 地平线求职进展汇总 #

45699次浏览 358人参与

# 校招求职有谈薪空间吗 #

127630次浏览 1809人参与

# 秋招签约后的心态变化 #

71826次浏览 785人参与

# 硬件人绝对不能踩的坑 #

54927次浏览 726人参与

# 参加完秋招的机械人，还参加春招吗？ #

37354次浏览 439人参与

# 秋招感动瞬间 #

18157次浏览 169人参与

# 找工作如何保持松弛感？ #

48211次浏览 751人参与

# 初创公司值得加入吗？ #

19048次浏览 164人参与

# 我在牛客求捞 #

36165次浏览 195人参与

# 大疆今年的机械笔试难吗？ #

39005次浏览 438人参与

# 哪些公司校招卡第一学历 #

52044次浏览 196人参与

# 工作经验重要还是工资重要？ #

49296次浏览 620人参与

# 软开人，秋招你打算投哪些公司呢 #

82486次浏览 856人参与

# 新凯来求职进展汇总 #

24157次浏览 77人参与

# 机械人，你会为了哪家公司违约？ #

58877次浏览 269人参与

牛客网
牛客企业服务