数据治理系列之小文件治理【面试吹牛草稿】

推荐阅读文章列表

大数据开发面经汇总【持续更新...】

我的大数据学习之路

大数据开发面试笔记V6.0

写在前面

在面试中你是否遇到过如下问题:

有没有遇到过小文件问题?

做项目的过程中有没有遇到一些难点?

你认为项目中比较有亮点的地方是什么?

不管面试官如何问,都可以这样去回答:

产生的原因

1)离线计算场景,一个reduce会对应一个小文件,如果reduce设置较大,就会对应大量的小文件

2)实时计算场景,流计算都是基于一个小窗口的数据来进行实时计算,显然会产生大量的小文件

3)数据源本身存在大量的小文件

带来的问题

1)存储问题:存储大量的小文件,会占用namenode大量的内存来存储元数据信息

2)计算问题:每个小文件需要一个maptask进行计算处理,浪费资源

解决方案

存量治理

采用Hadoop Archive归档的方式对小文件进行存储,这样能够将多个小文件打包为一个HAR文件

增量止血

  • 设置合适的reduce数量,官网建议:map数量和reduce数量是10比1
set mapred.reduce.tasks = 50;
  • 开启参数自动进行小文件合并
set hive.merge.mapredfiles = true;
  • 数据采集之前,将小文件进行合并后再进行入库
  • 在计算的时候,采用combineinputformat的切片方式,这样就可以将多个小文件放到一个切片中进行计算
#数据人的面试交流地##校招过来人的经验分享#
全部评论

相关推荐

你觉得之前学的专业对切入新方向(跨到 AI agent 项目)有什么帮助?跨专业、跨方向对你来讲哪些是助力(good thing),哪些是阻力(bad thing)?你之前在做 AI 智能导购时,有没有因对技术(如 NLP 技术、大模型技术)了解不足而影响项目的情况?发现自己在技术接口等方面的不足后,后期做了哪些工作去弥补这些可能影响做产品经理的问题?在 AI 智能导购项目中,哪些工作让你觉得最骄傲、做得最好?垂类的 AI 产品你了解哪些?在生活中用过哪些垂类或通用领域的 AI 工具 / 智能体帮助办公或学习?做 AI 产品调研时,一般用什么方式?有哪些渠道?对于海外产品如何做调研?做竞品分析通常怎么做?之前做产品时是否做过用户调查或用户动力洞察?如何确定目标客户群?你有自己的交互设计作品集吗?AI、大模型、ChatGPT、NLP 这几个概念是什么?它们之间的区别是什么?对于国内或国外的 3C 数码产品用户,他们在购买过程中有什么痛点?我们能帮他们解决这些问题吗?如果你自己购买大几千元或万元及以上的产品,会直接购买还是会有查询等操作?假如要做二手相机的 AI agent 产品,让用户相信你且体验好,你有什么设计想法?作为产品经理,怎么让用户觉得你的平台 / APP 是靠谱的、值得相信的?在你提到的购买流程的每一步中,如何让用户去相信?京东等平台上某一商品可能有上万条评论,有好有坏,站在产品经理角度,如何让用户进来后能一目了然地捕捉到重要信息,无需看完所有评论?你刚刚提到博主可以帮你增加对产品的信任度,博主的专业性对你的信任度影响大吗?是否会因为觉得博主讲得专业而更信任?假如在卖相机的平台里增加笔记本品类,从哪些角度保障试用的准确性和真实性?从交互上,增加哪些维度能让用户更青睐你的产品?设计 3C agent 产品(卖笔记本或二手相机)时,除了基础的数据和知识建设、三方评价外,从设计层面还能做哪些优化让用户更加认可或信任?把 AI agent 比作人或助手,怎么让用户一见钟情于你的 APP 或其能力,更容易记住?假如你做的 3C 产品 AI agent 要与众多电商平台或品牌官网的 APP 竞争,从零开始推广,怎么提高竞争力,让大家知道、使用甚至形成粘性?若面向海外(如北美地区)推广二手相机或 3C 产品的 AI agent 产品,会做哪些变化?现在哪些技术会降低用户对 3C 类 AI 产品的使用体验?作为产品经理,会想什么办法弥补这些技术缺陷?反问:业务 / 团队氛围相关问题
查看21道真题和解析
点赞 评论 收藏
分享
评论
3
15
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务