Hadoop笔记系列一

Hadoop

hadoop起源:

Hadoop起源于开源网络搜索引擎Apache Nutch。Apache Nutch是Lucene项目的一部分,Lucene是文本搜索系统库,Nutch是一个运行的网页爬取工具和搜索引擎系统。2003年的论文,描述谷歌产品架构,GFS(Google File System),2004年Nutch开发者开始着手做开源版本的实现,即Nutch分布式文件系统(NDFS),2004年谷歌又发表论文介绍MapReduce系统,Nutch开发人员又在Nutch上实现了MapReduce系统,2006年,开发人员将NDFS和MapReduce移出Nutch形成了Lucene的一个子项目,命名为Hadoop。

MapReduce:(hadoop的处理数据方式)

MapReduce是一种可用于数据处理的编程模型,Hadoop可以运行各种语言版本的MapReduce程序,MapReduce程序本质上是并行的,可将大规模的数据分析任务分发给任何一个拥有足够多机器的数据中心。

map,reduce分为两个阶段,每阶段都是以键值对作为输入和输出,需要提供map和reduce函数,

map阶段的输入是原始数据,它产生中间结果,而reduce是接受中间结果,对数据继续进行处理,产生最终的结果。

hadoop提供了不同语言的map和reduce实现方式,可根据需要使用。

MapReduce作业(job):客户端需要执行的工作单元,包括输入数据,MapReduce程序,配置信息。

任务(task):hadoop将作业分成若干个任务来执行,任务分两类,map任务和reduce任务,任务在集群上运行,并通过YARN进行调度,如果任务失败,则将在另一个不同的节点上自动重新调度运行。

分片:hadoop将MapReduce的输入数据划分成等长的小数据块,称为输入分片或简称分片,hadoop为每个分片构建一个map任务,并由改任务来运行用户自定义的map函数从而处理分片中的每条记录。一个合理的分片大小趋向于HDFS的一个块的大小,即默认是128MB。原因:在HDFS中,数据的存储是按照HDFS存储块来进行的,HDFS的块大小为128MB,如果分片的大小大于块的大小,则对于任何一个HDFS节点,基本都不可能同时存储这两个数据块,因此分片中的部分数据需要通过网络传输到map任务运行的节点,这样会降低运行效率。      

HDFS分布式文件系统

管理跨多台计算机存储的文件系统称分布式文件系统,Hadoop提供一个分布式文件系统,称之HDFS.

对计算机的磁盘来说,磁盘中最小的物理存储单位是扇区,通常情况下每个扇区是512字节,部分厂商扩充扇区为4096个字节,而磁盘块,是操作系统中最小的逻辑存储单位,操作系统与磁盘打交道的最小单位是磁盘块,因为扇区的存储数据的量比较小,寻址比较麻烦,操作系统将相邻的扇区组合在一起,形成一个块,再对块进行整体的操作,操作系统是通过块做为单位读取和操作数据,文件系统是操作系统的一部分,所以文件系统操作文件的最小单位是块,一个块=一个扇区*2n次方。

HDFS中的块的大小默认为128MB,HDFS上的文件被划分为块大小的多个分块,作为独立的存储单元,优点是:块可以大于网络中任意一个磁盘的容量,同时,简化了存储子系统的设计。

HDFS的节点类型:namenode(管理节点),datanode(工作节点)

namenode管理命名空间,它维护文件系统树即整个树内的所有文件和目录,这些信息保存在本地系统的命名空间镜像文件和编辑日志文件,namenode也记录各个文件中各个块所在的数据节点信息。namenode节点可以看做是一个索引,他有datanode节点的列表,以及开始地址。

datenode是文件系统的工作节点,他们根据需要存储并检索数据块,并且定期向namenode发送它们所存储的块的列表。

没有namenode,文件系统将无法使用,namenode损坏,所有文件将丢失,因为不知道如何根据datanode的块重建文件。

对namenode的保护机制是⑴备份组成文件系统元数据持久状态的文件⑵运行一个辅助namenode,但是它不能被用作namenode,辅助namenode定期合并编辑日志与命名空间镜像,防止编辑日志过大,辅助namenode一般在另一台机器上运行,因为其会消耗大量的CPU,同时辅助namenode保存的状态会滞后于主节点,所以当主节点发生故障的时候,有可能会丢失一些信息。

YARN:

YARN(Yet Another Resource Negotiator)是hadoop的集群资源管理系统,YARN提供了请求和使用集群资源的API,但这些API很少直接用于用户代码,YARN是为了改善MapReduce的实现。

YARN的两类守护进程:管理集群上资源使用的资源管理器(resource manager),运行在集群中所有节点上且能够启动和监控容器的节点管理器(node manager),容器用于执行特定应用程序的进程,每个容器都有资源限制。容器可以是一个进程。

YARN中的调度:

如何处理YARN应用发出的资源请求(资源请求:任务所需要的容器资源,即容器需要的计算机资源数量(内存,CPU)),YARN调度器的工作就是根据既定的策略为应用分配资源。YARN中有三种调度器:

⑴FIFO调度器:不需要任何配置,不适合共享集群,FIFO调度器将应用放置在一个队列中,然后按照提交的顺序运行应用,但是如果先进入队列的应用请求分配的资源过大,则后面的小的请求则一直处于等待状态。

⑵容量调度器:允许多个组织共享一个Hadoop集群,每个组织可以分配到全部集群资源的一部分,没哥哥组织被配置一个专门的队列,每个队列被配置为可以使用一定的集群资源。弹性队列:单个作业使用的资源不会超过其队列的容量,当队列中有多个作业,恰好队列中有可用的空闲资源,那么容量调度器可能会将空余的资源分配给队列中的作业,即使会超出队列容量。

⑶公平调度器:不需要预留一定量的资源,调度器会在所有运行的作业之间动态平衡资源。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

全部评论

相关推荐

美团开奖了,谁说测开比后端薪资低?谁说前端比后端薪资低?好了你又要说后端可以争取sp、ssp,但是能拿到美团白菜offer的就已经算是人中龙凤了,拿到sp、ssp更是凤毛麟角!依旧劝退后端!你后端学历内卷炼狱!实习经历卷的爆!甚至无法入行!入行了也只是和测开、前端的一般!1.学历,最痛的一击!后端工程师的第一步,走得不是技术,而是学历!想要进入大厂?好好看清楚自己的身份证:没有名校背景,别想着进美团、字节、腾讯! 面试官看你的第一眼就会想:“呵,去,给你点面试机会,看看你的技术!”什么?你说自己有技术?不好意思,来点GitHub链接,Project经历,能让面试官笑着赶你走。你没个985、211,双一流,根本就无法站稳在这场技术竞赛的起点。你想进大厂,没学历,没技术!永远只有一个词—— “被无情拒绝”。2. 薪资:你不过是和前端、测开的一匹马“后端工程师薪资高?能进SSP就是牛逼!”SSP? 听起来像是你梦想的银河,但实际上能拿到这个级别的人 凤毛麟角,除非你在面试官面前像神话人物一样打了个响指,否则你连SSP的尾巴都摸不着。至于你说的“前端薪资不高”?别逗了,前端都在笑你呢, 他们搞个页面,工资比你写个亿级请求接口还多。你说你辛辛苦苦优化API、调度缓存,别人搞个UI设计就能多拿几千块。前端已经不止是个展示层了,他们赚得比你还轻松,而你不过是服务器上疯狂跑“CRUD操作”的那只笨重的工蚁。3. 后端的真正意义:修 Bug,解决问题,下一份工作还是修 Bug有多少人觉得后端是系统架构、数据库优化的高端战场?醒醒吧! 后端的真正使命:维护旧项目,修复别人留下的烂摊子。你觉得自己能构建一个完美的系统?不!你只会一边修复技术债务,一边打着 “重构” 的旗号,换来的是 “重构再重构” 的无尽循环。而且,别告诉我你能专心写代码。你又要写代码,又要看服务器日志,没事还得帮别人 修崩的数据库,给前端数据源做“格式化”。你就是那块永远处于消耗型工作的 “万金油”。4. 晋升?哈哈哈,你是在做梦!你以为后端开发是一条顺风顺水的快速晋升路线?错! 你永远只能在一个“程序员”的岗位上打转,或者你为自己设立目标:“我要成为架构师”,那真的是在妄想。架构师?高级开发?靠近那条道路,你的心脏会先被晋升难度给捏住,你前方只有一座座高不可攀的技术山。别看那些SSP,架构师,架构啥呀?公司里的架构都是前端架构师,你就坐在后端的角落里,照顾着你那些满是错误的API和服务器。5. 加班?还是加班!你以为后端开发能像文艺片那样“偶尔加个班”?哈哈,傻了吧! 后端开发的生活是无休止的加班和修bug,你不仅要写接口,还得守夜调度、监控系统性能。就连你写的那个“完美的数据库查询”,也可能在 第二天 被前端因为“页面卡顿”给打回原形。“没有加班,你还能吃什么饭?”你说你是程序员,结果你的生活全是 熬夜加班、调试、重启。前端跑个页面,喝个咖啡就能过关,而你呢,熬夜跟数据库调试,最后还是那个穷忙的死循环。6. 技术天花板:架构?技术深度?笑死了!后端开发的天花板?那不过是个永远也摸不着的架构师“梦想”,你能掌握几款框架、几种数据库、两三套微服务架构,最后也不过是个 管理端的“搬运工”。你没办法“打破天花板”,更没有机会跳出“自己写个爬虫”或者“API接口”的死循环。技术深度?你也不过是 “技术债务”的修复者,一天到晚都在修补“老旧系统”的缺陷,偶尔听前端同学聊聊他们React、Vue的最新版本,你根本无法理解他们说的是什么。
开心小狗🐶:感觉后端有点像考研的0812,报名的时候都想冲0812,看不上0854。但是真入学了,不都是众生平等
点赞 评论 收藏
分享
09-05 21:54
已编辑
湖南工程学院 Java
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
牛客网
牛客网在线编程
牛客网题解
牛客企业服务