福大大架构师每日一题

2020-08-24 22:01 北京动视元科技有限公司_产品中心_研发工程师

关注

2020-08-24：什么是小文件？很多小文件会有什么问题？很多小文件怎么解决？（大数据）

福哥答案2020-08-24：
知乎答案
1.小文件：
小文件是指文件大小明显小于 HDFS 上块（block）大小（默认64MB，在Hadoop2.x中默认为128MB）的文件。

2.小文件问题：
HDFS的小文件问题：
（１）HDFS 中任何一个文件，目录或者数据块在 NameNode 节点内存中均以一个对象形式表示（元数据），而这受到 NameNode 物理内存容量的限制。每个元数据对象约占 150 byte，所以如果有1千万个小文件，每个文件占用一个block，则 NameNode 大约需要2G空间。如果存储1亿个文件，则 NameNode 需要20G空间，这毫无疑问1亿个小文件是不可取的。
（２）处理小文件并非 Hadoop 的设计目标，HDFS 的设计目标是流式访问大数据集（TB级别）。因而，在 HDFS 中存储大量小文件是很低效的。访问大量小文件经常会导致大量的 seek，以及不断的在 DatanNde 间跳跃去检索小文件。这不是一个很有效的访问模式，严重影响性能。
（３）处理大量小文件速度远远小于处理同等大小的大文件的速度。每一个小文件要占用一个slot，而任务启动将耗费大量时间甚至大部分时间都耗费在启动任务和释放任务上。

MapReduce上的小文件问题：
Map任务一般一次只处理一个块的输入（input。如果文件非常小，并且有很多，那么每一个 Map 任务都仅仅处理非常小的输入数据，并会产生大量的 Map 任务，每一个 Map 任务都会额外增加bookkeeping 开销。

为什么会产生大量的小文件
至少在两种场景下会产生大量的小文件:
（１）这些小文件都是一个大逻辑文件的一部分。由于 HDFS 在2.x版本才开始支持对文件进行追加，所以在此之前保存无边界文件（例如日志文件）一种常用的方式就是将这些数据以块的形式写入HDFS中。
（２）文件本身就是很小。比如对于一个很大的图片语料库，每一个图片都是一个单独的文件，并且没有一种很好的方法来将这些文件合并为一个大的文件。
解决方案
这两种情况需要有不同的解决方式：
（１）对于第一种情况，文件是许多记录组成的，那么可以通过调用 HDFS 的 sync() 方法(和 append 方法结合使用)，每隔一定时间生成一个大文件。或者，可以通过写一个 MapReduce 程序来来合并这些小文件。
（２）对于第二种情况，就需要容器通过某种方式来对这些文件进行分组。Hadoop提供了一些选择：
①使用HAR File。Hadoop Archives （HAR files）是在 0.18.0 版本中引入到 HDFS 中的，它的出现就是为了缓解大量小文件消耗 NameNode 内存的问题。HAR 文件是通过在 HDFS 上构建一个分层文件系统来工作。HAR 文件通过 hadoop archive 命令来创建，而这个命令实际上是运行 MapReduce 作业来将小文件打包成少量的 HDFS 文件。对于客户端来说，使用 HAR 文件系统没有任何的变化：所有原始文件都可见以及可以访问（只是使用 har://URL，而不是 hdfs://URL），但是在 HDFS 中中文件个数却减少了。
②使用SequenceFile存储。文件名作为 key，文件内容作为 value。在实践中这种方式非常有效。比如对于10,000个100KB大小的小文件问题，可以编写一个程序将合并为一个 SequenceFile，然后你可以以流式方式处理（直接处理或使用 MapReduce） SequenceFile。
③使用HBase。如果你产生很多小文件，根据访问模式的不同，应该进行不同类型的存储。HBase 将数据存储在 Map Files（带索引的 SequenceFile）中，如果你需要随机访问来执行 MapReduce 流式分析，这是一个不错的选择。

福大大架构师每日一题文章被收录于专栏

最新面试题，针对高级开发人员和架构师。内容是后端、大数据和人工智能。

全部评论

推荐最新楼层

11-29 21:58

上海交通大学产品经理

面试篇面试不想挂，看看这些错误

最近作为面试官参与了几轮公司面试，想把被拒的同学犯的错误小结一下，希望大家未来面试不要重蹈覆辙。1，不清楚申请的原因很多时候当我们被问到这个问题的时候，都开始赞颂企业以及所在的行业多么好。更好的逻辑可以先说说自己的职业规划，兴趣爱好，然后阐述为什么选这个岗位，表达和企业一起成长的逻辑。2，不清楚自己的优势很多时候一个岗位不是我们一个人在面试，站在用人单位视角，你需要给出不选别人而选你的理由，这里核心是找到过去能力和经验可以复用的地方，强调自己如何快速上手目标岗位。3，缺乏充分的准备很多时候我们在面试前对目标企业和岗位的研究工作不充分，尤其对目前企业以及所在的行业的理解，导致面试感觉在听面试官上...

毕业求职不EMO 牛客创作赏金赛

点赞评论收藏

分享

11-26 17:09

华南理工大学后端

offer选择华为蚂蚁 pdd

蚂蚁基架java (n+6)*16 签字费若干

点赞评论收藏

分享

10-27 21:46

南京航空航天大学 C++

华子流程挂了是不是秋招就再没机会了，感觉投错部门了

自信的小松鼠在评审：为啥挂

点赞评论收藏

分享

不愿透露姓名的神秘牛友

11-28 23:13

海康威视的真实体验

首先，海康的总部人真的多，尤其是食堂，电梯里也是人挤人。工作强度上，我觉得海康的节奏还挺慢的。只要把任务完成了，就可以回家，不需要加班。想学点产品知识的话，都能在公司里找到机会。我所在的小组氛围也很不错，这里扁平化管理，大家都很年轻，互相帮助。请教问题的时候，主管总是乐意解答，会给你安排学习计划。

海康威视工作强度 84人发布

点赞评论收藏

分享

评论

3

收藏

全站热榜

正在热议

# 拼多多求职进展汇总 #

238779次浏览 2043人参与

# 实习，投递多份简历没人回复怎么办 #

2443855次浏览 34767人参与

# 阿里云管培生offer #

64016次浏览 1764人参与

# 25届秋招总结 #

417922次浏览 4198人参与

# ai智能作图 #

32278次浏览 398人参与

# 地方国企笔面经互助 #

7169次浏览 17人参与

# 北方华创开奖 #

67579次浏览 555人参与

# 虾皮求职进展汇总 #

96461次浏览 784人参与

# 我在牛爱网找对象 #

75042次浏览 556人参与

# 机械求职避坑tips #

24018次浏览 251人参与

# 发工资后，你做的第一件事是什么 #

9831次浏览 45人参与

# 25届机械人为了秋招做了哪些准备？ #

26634次浏览 365人参与

# 我的实习求职记录 #

6138497次浏览 84043人参与

# 投格力的你，拿到offer了吗？ #

47692次浏览 337人参与

# 投递实习岗位前的准备 #

1192578次浏览 18500人参与

# 机械人怎么评价今年的华为 #

158227次浏览 1353人参与

# 实习想申请秋招offer，能不能argue薪资 #

36562次浏览 310人参与

# 实习与准备秋招该如何平衡 #

725206次浏览 8566人参与

# 华为工作体验 #

112123次浏览 868人参与

# 在职场上，你最讨厌什么样的同事 #

6322次浏览 92人参与

# 如果再来一次，你还会选择这个工作吗？ #

117729次浏览 1160人参与

# 国央企笔面经互助 #

88754次浏览 897人参与

牛客网
牛客企业服务