Hadoop笔记系列一

Hadoop

hadoop起源:

Hadoop起源于开源网络搜索引擎Apache Nutch。Apache Nutch是Lucene项目的一部分,Lucene是文本搜索系统库,Nutch是一个运行的网页爬取工具和搜索引擎系统。2003年的论文,描述谷歌产品架构,GFS(Google File System),2004年Nutch开发者开始着手做开源版本的实现,即Nutch分布式文件系统(NDFS),2004年谷歌又发表论文介绍MapReduce系统,Nutch开发人员又在Nutch上实现了MapReduce系统,2006年,开发人员将NDFS和MapReduce移出Nutch形成了Lucene的一个子项目,命名为Hadoop。

MapReduce:(hadoop的处理数据方式)

MapReduce是一种可用于数据处理的编程模型,Hadoop可以运行各种语言版本的MapReduce程序,MapReduce程序本质上是并行的,可将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。

map,reduce分为两个阶段,每阶段都是以键值对作为输入和输出,需要提供map和reduce函数,

map阶段的输入是原始数据,它产生中间结果,而reduce是接受中间结果,对数据继续进行处理,产生最终的结果。

hadoop提供了不同语言的map和reduce实现方式,可根据需要使用。

MapReduce作业(job):客户端需要执行的工作单元,包括输入数据,MapReduce程序,配置信息。

任务(task):hadoop将作业分成若干个任务来执行,任务分两类,map任务和reduce任务,任务在集群上运行,并通过YARN进行调度,如果任务失败,则将在另一个不同的节点上自动重新调度运行。

分片:hadoop将MapReduce的输入数据划分成等长的小数据块,称为输入分片或简称分片,hadoop为每个分片构建一个map任务,并由改任务来运行用户自定义的map函数从而处理分片中的每条记录。一个合理的分片大小趋向于HDFS的一个块的大小,即默认是128MB。原因:在HDFS中,数据的存储是按照HDFS存储块来进行的,HDFS的块大小为128MB,如果分片的大小大于块的大小,则对于任何一个HDFS节点,基本都不可能同时存储这两个数据块,因此分片中的部分数据需要通过网络传输到map任务运行的节点,这样会降低运行效率。      

HDFS分布式文件系统

管理跨多台计算机存储的文件系统称分布式文件系统,Hadoop提供一个分布式文件系统,称之HDFS.

对计算机的磁盘来说,磁盘中最小的物理存储单位是扇区,通常情况下每个扇区是512字节,部分厂商扩充扇区为4096个字节,而磁盘块,是操作系统中最小的逻辑存储单位,操作系统与磁盘打交道的最小单位是磁盘块,因为扇区的存储数据的量比较小,寻址比较麻烦,操作系统将相邻的扇区组合在一起,形成一个块,再对块进行整体的操作,操作系统是通过块做为单位读取和操作数据,文件系统是操作系统的一部分,所以文件系统操作文件的最小单位是块,一个块=一个扇区*2n次方。

HDFS中的块的大小默认为128MB,HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,优点是:块可以大于网络中任意一个磁盘的容量,同时,简化了存储子系统的设计。

HDFS的节点类型:namenode(管理节点),datanode(工作节点)

namenode管理命名空间,它维护文件系统树即整个树内的所有文件和目录,这些信息保存在本地系统的命名空间镜像文件和编辑日志文件,namenode也记录各个文件中各个块所在的数据节点信息。namenode节点可以看做是一个索引,他有datanode节点的列表,以及开始地址。

datenode是文件系统的工作节点,他们根据需要存储并检索数据块,并且定期向namenode发送它们所存储的块的列表。

没有namenode,文件系统将无法使用,namenode损坏,所有文件将丢失,因为不知道如何根据datanode的块重建文件。

对namenode的保护机制是⑴备份组成文件系统元数据持久状态的文件⑵运行一个辅助namenode,但是它不能被用作namenode,辅助namenode定期合并编辑日志与命名空间镜像,防止编辑日志过大,辅助namenode一般在另一台机器上运行,因为其会消耗大量的CPU,同时辅助namenode保存的状态会滞后于主节点,所以当主节点发生故障的时候,有可能会丢失一些信息。

YARN:

YARN(Yet Another Resource Negotiator)是hadoop的集群资源管理系统,YARN提供了请求和使用集群资源的API,但这些API很少直接用于用户代码,YARN是为了改善MapReduce的实现。

YARN的两类守护进程:管理集群上资源使用的资源管理器(resource manager),运行在集群中所有节点上且能够启动和监控容器的节点管理器(node manager),容器用于执行特定应用程序的进程,每个容器都有资源限制。容器可以是一个进程。

YARN中的调度:

如何处理YARN应用发出的资源请求(资源请求:任务所需要的容器资源,即容器需要的计算机资源数量(内存,CPU)),YARN调度器的工作就是根据既定的策略为应用分配资源。YARN中有三种调度器:

⑴FIFO调度器:不需要任何配置,不适合共享集群,FIFO调度器将应用放置在一个队列中,然后按照提交的顺序运行应用,但是如果先进入队列的应用请求分配的资源过大,则后面的小的请求则一直处于等待状态。

⑵容量调度器:允许多个组织共享一个Hadoop集群,每个组织可以分配到全部集群资源的一部分,没哥哥组织被配置一个专门的队列,每个队列被配置为可以使用一定的集群资源。弹性队列:单个作业使用的资源不会超过其队列的容量,当队列中有多个作业,恰好队列中有可用的空闲资源,那么容量调度器可能会将空余的资源分配给队列中的作业,即使会超出队列容量。

⑶公平调度器:不需要预留一定量的资源,调度器会在所有运行的作业之间动态平衡资源。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

全部评论

相关推荐

2025-12-16 22:19
已编辑
南昌市第三中学 Java
个人背景:27届本科 江西普通一本院校个人经历:小厂->用友->蔚来->美团->腾讯不知不觉已经有了五段实习经历,也快在外面漂泊一年半了,在今年也完成了两年前自己想进大厂的目标,可能在别人看来确实就是一段比较传奇的过程,一步一步都在向上走,也会有很多人来问我相关学习实习的一些问题,我看到了也会尽量去回复,但现在我想给大家说的并不是千篇一律的学习路线,而是我认为更为重要的——勇气与抉择。下面我来分享一下这些年的心路历程最初学习背景:我跟很多人一样,都是刚进入大学才开始接触计算机,也刚刚拥有自己的电脑,在刚开始学习的过程没有任何人来帮助我,给予我相关的指导,完全是自己摸索出来的一条学习路线,不会有如今这样有很多完善好的速成路线,而家里人都在想让我考研,似乎本科以我的学历就业是不现实的。我也很早意识到了学历对于我的限制,所以萌生出了大一就开始实习的想法,但这个想法在当时基本上是不存在。所有人都在抨击我(这里感兴趣的话可以看我最早发的帖子),有的人说本科想进大厂痴人说梦,有的人劝我以我的学历考研才是上策,有的人说我屁都不懂就来卷,总之我很难说去看到有支持的。我大一的时候还没卷成如今这样很多大一实习,当我想找到是否有跟我一样下定决心一步一步往上走的人,我当时是没有找到的,要么是秋招的哀嚎,要么就直接是零实习进大厂(现在我知道,这里所谓的普通学历0实习进大厂的水分有很多,排除真正意义上的运气和实力,其他基本上全是造假作弊,大家自己心知肚明,也要放平心态)这就导致了一个没有先例的情况,很多人也都是拿没有先例来抨击我,包括家里人也不支持我去实习,可能很多人的积极性就会下降,但我从来不会信所谓的不可能,如果没有先例,那我就会是第一个,他们不行,是因为他们没能力,他们坚持不下去。勇气是很重要的,当你发现你身边没有人像你一样,就很少会有人相信你,看好你,但好在,我不在乎。最初实习阶段:在最初3000沟通只有零星几个面试的时候,那感觉确实很不好受,沉没成本太大,得到的正反馈却太少,当时基本上都是一天学八个小时从来不间断,没有周末没有节假日,甚至过年我都在学习,这就导致我现在都会因为我周末偶尔休息的时候会有负罪感,我感觉已经是种病了,我也知道我也可以休息会但控制不了。当时我出去实习口袋里有1w块(这是我高中三年加大一一年存下来的,基本上是很抠很抠,一个月生活费有时候有一千多有时候就五六百,但也算得上是成功攒了一点钱)但第一次总会是很害怕,担心租房被骗,担心工作能力不行,担心被公司坑,担心学校原因导致不能实习等等,基本上在前面几段实习是根本不攒钱的,代课已经花了一万多,加上租房来回,基本上只能说堪堪不负支出,后来远赴北京,作为一个南方人,有很多不适应的地方,但现在回过头来一想,已经在北京呆了一年多了。我知道很多人要么担心学校因素,要么担心赚的还没花的多,种种因素导致了实习的困难,我也很害怕,我的钱会不会最终全部打水漂,学校会不会爆雷,我以后还能顺利实习吗等等。但对于我来说,我能对自己狠下心,我能接受通勤时间一个半小时只为节省那么几百块的房租钱,我能控制自己的消费的欲望,我能每个月大把大把把钱给代课,这可能就是我能够初期实习顺利的原因,这需要勇气,也需要对自己狠。实习中的抉择:在有了两段实习经历后,我的目标就朝着大厂进发,在去蔚来的中途,我oc了七八家中小厂公司,这里面不乏一些待遇极其优越的公司(有一家我真的差点就去了),但我最终还是都拒了,因为我清楚的明白想往上走的,只有公司title会帮你说话,没有人有义务理解你的困难你的坚持,好在最后去了蔚来,也算如愿以偿。从蔚来到美团倒是没有过多纠结,因为在最开始的梦中情厂就是美团,但从美团去腾讯这个决定或许是我人生中的转折点。美团多次挽留我,帮我沟通问hr,基本上就是一定能转暑期然后成功转正,仿佛这年薪40w的工作已经触手可得,所以在拿到腾讯offer的那一刻并没有多高兴,因为我意识到这可能是我此生最接近大厂的一次机会,可能大部分人都会选择留在美团,我也认为这一定是一个好的选择。我能够走到如今,是永远相信自己的判断,我的每一步都是在赌一个好的未来,只不过,这次赌注大了点而已,或许未来我再也进不了这些所谓的大厂,但我赌的不是选择错对,我赌我不后悔。所谓信念支撑:都说人要为自己而活,但我或许做不到,毕竟我身处人情社会,有许多爱我的人在等着我成长,我也不能接受因为能力而再次放弃一段感情,最近喜欢一段歌词:爱我的人相信我我一直在努力改变所有失败为你们而存在爱我的人感谢你你们的爱就算人生不是精彩我也要勇敢的姿态最后的最后,我想给大家传递的从来都不是一个普通学历进入大厂的意气风发,我想给大家传递的,是一股相信自己能够向上的信念和可能性。在没有打比赛能力,没有开源能力,没有学历等各个限制下,我帮大家试出了一条能够向上的路。如果没有先例,那我会是第一个。我们不需要弄虚作假,只靠自己一步一步脚踏实地,哪怕慢一点,不赌自己是否成功,只赌自己不后悔,问心无愧。最后送给大家,也送给自己一段话结束2025:生活可能没你想的那么好,也不会像你想的那么糟,人的脆弱和坚强,都超乎了你的想象,有时候可能脆弱的一句话就泪流满面,有时候你发现自己咬咬牙已经走了很长的路了
等闲_:感觉咱们双非的同学都有一个共性,想证明双非也是能进大厂的,我之前所有的标签都喜欢带着双非,仿佛这样可以像别人证明自己的实力,现在我却不再想证明双非到底能不能进大厂,我的生活的所有者是我自己,享受生活,接受结果
2025年终总结
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务