三石大数据

2024-07-08 08:44 门头沟学院大数据开发工程师发布于浙江

关注

数据治理系列之小文件治理【面试吹牛草稿】

写在前面

在面试中你是否遇到过如下问题：

有没有遇到过小文件问题？

做项目的过程中有没有遇到一些难点？

你认为项目中比较有亮点的地方是什么？

不管面试官如何问，都可以这样去回答：

产生的原因

1）离线计算场景，一个reduce会对应一个小文件，如果reduce设置较大，就会对应大量的小文件

2）实时计算场景，流计算都是基于一个小窗口的数据来进行实时计算，显然会产生大量的小文件

3）数据源本身存在大量的小文件

带来的问题

1）存储问题：存储大量的小文件，会占用namenode大量的内存来存储元数据信息

2）计算问题：每个小文件需要一个maptask进行计算处理，浪费资源

解决方案

存量治理

采用Hadoop Archive归档的方式对小文件进行存储，这样能够将多个小文件打包为一个HAR文件

增量止血

设置合适的reduce数量，官网建议：map数量和reduce数量是10比1

set mapred.reduce.tasks = 50;

开启参数自动进行小文件合并

set hive.merge.mapredfiles = true;

数据采集之前，将小文件进行合并后再进行入库
在计算的时候，采用combineinputformat的切片方式，这样就可以将多个小文件放到一个切片中进行计算

#数据人的面试交流地##校招过来人的经验分享#

全部评论

推荐最新楼层

07-01 17:19

点赞评论收藏

07-01 15:14

西安电子科技大学机械工程师

倒钱男孩儿的一个月的工资分配

💸收支总览 本月工资：8108元（税后）京东白条代还（3200/35000）房租水电：2500生存基本金：1500备用金：908

每个月的工资都是怎么分配...

点赞评论收藏

05-30 07:40

吉首大学张家界学院软件测试

会赢吗？

_mos_：忍耐王

点赞评论收藏

06-10 21:15

门头沟学院 Java

这正常吗？毕业了还要实习。

宁阿：好多这种没🧠的公司，他们估计都不知道毕业的人不能给安排实习岗

实习吐槽大会

点赞评论收藏

不愿透露姓名的神秘牛友

07-01 14:44

今年实习比去年难很多，大家有没有感觉到？

rt，感觉一年比一年难去年找实习，大概一个月能找到今年找了三个月了，什么也没有连打招呼回复都屈指可数……处于大厂不搭理我，小厂还不想去的感觉……

真的很糟糕：人太多了，几百人抢一个岗位，就算面试都答上来了照样挂

实习，不懂就问

点赞评论收藏

招聘动态

现代汽车前瞻技术研发中心

京东TET

全站热榜

创作者周榜

正在热议

# 现代汽车前瞻技术研发急速编程挑战赛 #

# 如果你有一天可以担任公司的CEO，你会做哪三件事？ #

28985次浏览 460人参与

# 你觉得现在还能进互联网吗？ #

7504次浏览 130人参与

数据治理系列之小文件治理【面试吹牛草稿】

推荐阅读文章列表

写在前面

产生的原因

带来的问题

解决方案

存量治理

增量止血

全站热榜

创作者周榜