首页
题库
公司真题
专项练习
面试题库
在线编程
面试
面试经验
AI 模拟面试
简历
求职
学习
基础学习课
实战项目课
求职辅导课
专栏&文章
竞赛
我要招人
发布职位
发布职位、邀约牛人
更多企业解决方案
AI面试、笔试、校招、雇品
HR免费试用AI面试
最新面试提效必备
登录
/
注册
竹九尘
亚马逊_软件开发工程师
发布于美国
关注
已关注
取消关注
@蓦_然:
大数据面试题:Spark和MapReduce之间的区别?
面试题来源:大数据面试题 V4.0可回答:1)spark和maprecude的对比;2)mapreduce与spark优劣好处问过的一些公司:阿里云(2022.10),银联(2022.10),携程(2022.09),vivo(2022.09),滴滴(2022.09)(2020.09),网易云音乐(2022.09),快手(2022.08),字节(2022.08)x2(2022.05)(2020.09)(2020.06)(2019.11)x4,快手(2022.08),星环科技(2022.07),海康威视(2022.06),字节日常实习(2022.03),思科cisco(2021.11),腾讯PCG(2021.10),腾讯云(2021.10),阿里(2021.10),蔚来(2021.09),重庆富民银行(2021.09),网易杭研院(2021.09),网易严选(2021.08),小米(2021.08)(2020.09)(2019.09),华为精英计划(2021.07),触宝(2021.07),有道(2021.03),作业帮社招(2020.09),58(2020.09),一点资讯(2020.08),多益(2020.08),360实习(2020.04),阿里菜鸟(2020.04),腾讯互娱(2020.03),蘑菇街实习(2020.03)x2,阿里淘系(2019.11),美团大众点评(2019.10),微众银行(2019.09),网易有道(2019.08),招商银行信用卡中心(2019.04),光大银行(2019.03),头条(2018.11)参考答案:1、Spark处理数据是基于内存的,而MapReduce是基于磁盘处理数据的MapReduce是将中间结果保存到磁盘中,减少了内存占用,牺牲了计算性能。Spark是将计算的中间结果保存到内存中,可以反复利用,提高了处理数据的性能。2、Spark在处理数据时构建了DAG有向无环图,减少了shuffle和数据落地磁盘的次数Spark计算比MapReduce快的根本原因在于DAG计算模型。一般而言,DAG相比MapReduce在大多数情况下可以减少shuffle次数。Spark的DAGScheduler相当于一个改进版的MapReduce,如果计算不涉及与其他节点进行数据交换,Spark可以在内存中一次性完成这些操作,也就是中间结果无须落盘,减少了磁盘IO的操作。但是,如果计算过程中涉及数据交换,Spark也是会把shuffle的数据写磁盘的。3、Spark比MapReduce快有一个误区,Spark是基于内存的计算,所以快,这不是主要原因,要对数据做计算,必然得加载到内存,Hadoop也是如此,只不过Spark支持将需要反复用到的数据Cache到内存中,减少数据加载耗时,所以Spark跑机器学习算法比较在行(需要对数据进行反复迭代)。4、Spark是粗粒度资源申请,而MapReduce是细粒度资源申请粗粒度申请资源指的是在提交资源时,Spark会提前向资源管理器(YARN,Mess)将资源申请完毕,如果申请不到资源就等待,如果申请到就运行task任务,而不需要task再去申请资源。MapReduce是细粒度申请资源,提交任务,task自己申请资源自己运行程序,自己释放资源,虽然资源能够充分利用,但是这样任务运行的很慢。5、MapReduce的Task的执行单元是进程,Spark的Task执行单元是线程进程的创建销毁的开销较大,线程开销较小。6、Spark优缺点优点:1)Spark把中间数据放到内存中,迭代运算效率高。Spark支持DAG图的分布式并行计算的编程框架,减少了迭代过程中数据的落地,提高了处理效率。2)Spark 容错性高Spark 引进了弹性分布式数据集 RDD (Resilient DistributedDataset) 的抽象,它是分布在一组节点中的只读对象集合,这些集合是弹性的,如果数据集一部分丢失,则可以根据“血统”(即允许基于数据衍生过程)对它们进行重建。另外在RDD 计算时可以通过 CheckPoint 来实现容错。3)Spark更加通用Spark提供的数据集操作类型分为:Transformations和Actions两大类。Transformations包括Map、Filter、FlatMap、Sample、GroupByKey、ReduceByKey、Union、Join、Cogroup、MapValues、Sort等多种操作类型,同时还提供Count, Actions包括Collect、Reduce、Lookup和Save等操作。缺点:1)内存问题 JVM的内存overhead太大,1G的数据通常需要消耗5G的内存。2)性能问题由于大量数据抄被缓存在RAM中,Java回收垃圾缓慢的情况严重,导致Spark性能不稳定。7、MapReduce优缺点优点:1)MapReduce 易于编程它简单的实现一些接口,就可以完成一个分布式程序,这个分布式程序可以分布到大量廉价的 PC 机器上运行。也就是说你写一个分布式程序,跟写一个简单的串行程序是一模一样的。就是因为这个特点使得 MapReduce 编程变得非常流行。2)良好的扩展性当你的计算资源不能得到满足的时候,你可以通过简单的增加机器来扩展它的计算能力。3)高容错性MapReduce 设计的初衷就是使程序能够部署在廉价的 PC 机器上,这就要求它具有很高的容错性。比如其中一台机器挂了,它可以把上面的计算任务转移到另外一个节点上运行, 不至于这个任务运行失败,而且这个过程不需要人工参与,而完全是由Hadoop内部完成的。4)适合 PB 级以上海量数据的离线处理可以实现上千台服务器集群并发工作,提供数据处理能力。缺点:1)不擅长实时计算MapReduce无法像MySQL一样,在毫秒或者秒级内返回结果。2)不擅长流式计算流式计算的输入数据是动态的,而MapReduce的输入数据集是静态的,不能动态变化。这是因为 MapReduce 自身的设计特点决定了数据源必须是静态的。3)不擅长 DAG(有向无环图)计算多个应用程序存在依赖关系,后一个应用程序的输入为前一个的输出。在这种情况下,MapReduce并不是不能做,而是使用后,每个MapReduce作业的输出结果都会写入到磁盘, 会造成大量的磁盘 IO,导致性能非常的低下。
点赞 17
评论 0
全部评论
推荐
最新
楼层
暂无评论,快来抢首评~
相关推荐
04-24 11:06
哔哩哔哩_游戏算法工程师(准入职员工)
哔哩哔哩内推bilibili内推
不知不觉已经在哔哩实习马上一年了,实话实说哔哩实习的体验感真的蛮好的,今年也成功在哔哩顺利转正,拿到正式的offer了。 首先是实习强度💢 ,这块哔哩确实挺好的,实习的时候组内的大佬都不内卷,每天各自完成自己的工作就能下班回家啦,每天晚上8点半可以拿免费的加班餐,9点半能免费打车回家(我住的近,根本用不到) 🫶️ 团队氛围这块真的没话说,团队内的大佬都很乐意帮助我快速成长,犯错的时候,及时找mentor沟通,mentor真的无所不能,而且还会给自己许多思考的空间 公司还有免费的健身房可以锻炼,我今天从五月份到9月份和同事一起去健身房锻炼已经减掉15斤了,而且最近一段时间又新换了一批设备 哔...
哔哩哔哩公司福利 357人发布
点赞
评论
收藏
分享
04-27 10:29
重庆大学 研发工程师
手把手教你配置进阶版可视化地图,10大样式+自定义配置全攻略
在数字化浪潮席卷全球的今天,数据成为企业决策、市场洞察的核心资产。当业务版图跨越地域界限,当用户分布呈现多维特征,当市场趋势暗藏区域密码,传统数据表格无法承载地理信息的深层价值。可视化图表的地图组件作为可视化领域的"空间翻译官",以独特的空间叙事能力,将经纬度坐标转化为决策者的战略地图。地图可以展示移动对象的位置和运动轨迹。它通常用于物流配送、交通路况等场景,将地球表面的地理特征、地形地貌、行政区划、交通网络等信息进行简化、概括和抽象,以平面的形式呈现出来。在JVS-智能BI可视化图表地图组件,提供10+的系统样式,另外,还可以自定义地图的样式,包括:颜色、图形、组件外观等...
点赞
评论
收藏
分享
04-10 23:54
中国人民解放军国防科技大学 C++
tx这个一直这样是啥意思不理解
是面试官没时间提交面评吗
点赞
评论
收藏
分享
04-25 07:40
清华大学 BSP工程师
可投嵌入式公司汇总4.24
后续添加投递链接1.华为 2.中兴通讯 3.大疆创新 4.海康威视 5.浙江大华 6.小米 7.联想 8.字节跳动(少部分岗位) 9.联发科 10.汇顶科技 11.瑞芯电子 12.紫光展锐 13.理想汽车 14.小鹏汽车 15.赛力斯 16.极氪汽车 17.联影医疗 18.鱼跃医疗 19.九阳股份 20.美的集团 21.格力电器 22.Tplink 23.斑马智行 24.比亚迪 25.南瑞继保 26.四方继保 27.中科曙光 28.华勤集团 29.禾望电气 30.海尔集团 31.汇川技术 32.锐捷网络 33.诺瓦星云 34.华测导航 35.虹软技术 36.万集科技 37.恒生电子 38.禾赛...
投递实习岗位前的准备
点赞
评论
收藏
分享
评论
点赞成功,聊一聊 >
点赞
收藏
分享
评论
提到的真题
返回内容
全站热榜
更多
1
...
暑期后端高频问题汇总
7.3W
2
...
左手敲代码的程序员,不配拥有offer吗?
6.6W
3
...
想听实话吗,校招ssp聊聊大厂客户端
3.8W
4
...
后端简历上最值得写的项目
1.0W
5
...
五一假期,弯道超车时间表
9687
6
...
北京到底有谁在啊?
9011
7
...
五一别写你那破开源代码了
7731
8
...
五一准备刷完这些面试八股题!!
6683
9
...
快手投诉后续- HR把我拉黑了!
6407
10
...
和ai聊天,忍不住爆哭
6076
创作者周榜
更多
正在热议
更多
#
设计人如何选offer
#
98240次浏览
687人参与
#
找工作,行业重要还是岗位重要?
#
7438次浏览
96人参与
#
五一之后,实习真的很难找吗?
#
45240次浏览
320人参与
#
盲审过后你想做什么?
#
12556次浏览
113人参与
#
外包能不能当跳板?
#
22154次浏览
191人参与
#
领导秒批的请假话术
#
9817次浏览
74人参与
#
考研可以缓解求职焦虑吗
#
20944次浏览
247人参与
#
五一假期,你打算“躺”还是“卷”?
#
28952次浏览
421人参与
#
找工作前vs找工作后的心路变化
#
7174次浏览
64人参与
#
面试等了一周没回复,还有戏吗
#
115531次浏览
1074人参与
#
硬件人,你被哪些公司给挂了
#
46620次浏览
722人参与
#
安克创新求职进展汇总
#
32550次浏览
415人参与
#
大疆的机械笔试比去年难吗
#
69595次浏览
603人参与
#
应届生薪资多少才合理?
#
3087次浏览
24人参与
#
你喜欢工作还是上学
#
37562次浏览
411人参与
#
牛友们的论文几号送审
#
27214次浏览
623人参与
#
写简历别走弯路
#
714328次浏览
7850人参与
#
如果有时光机,你最想去到哪个年纪?
#
43270次浏览
766人参与
#
如果不工作真的会快乐吗
#
101104次浏览
866人参与
#
如何缓解入职前的焦虑
#
171931次浏览
1267人参与
牛客网
牛客企业服务