2020-05-07 21:29 已编辑门头沟学院 Java

关注

大数据Hadoop之分布式模式

资料

Hadoop集群常用端口 Hadoop集群常用端口
Q：NameNode是什么？

A：NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。NameNode 决定是否将文件映射到 DataNode 上的复制块上。对于最常见的 3 个复制块，第一个复制块存储在同一机架的不同节点上，最后一个复制块存储在不同机架的某个节点上。NameNode本身不可避免地具有SPOF（Single Point Of Failure）单点失效的风险，主备模式并不能解决这个问题，通过Hadoop Non-stop namenode才能实现100% uptime可用时间。

Q：DataNode如何理解？

A：DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件。Hadoop 集群包含一个 NameNode 和大量 DataNode。DataNode 通常以机架的形式组织，机架通过一个交换机将所有系统连接起来。Hadoop 的一个假设是：机架内部节点之间的传输速度快于机架间节点的传输速度。
DataNode 响应来自 HDFS 客户机的读写请求。它们还响应来自 NameNode 的创建、删除和复制块的命令。NameNode 依赖来自每个 DataNode 的定期心跳（heartbeat）消息。每条消息都包含一个块报告，NameNode 可以根据这个报告验证块映射和其他文件系统元数据。如果 DataNode 不能发送心跳消息，NameNode 将采取修复措施，重新复制在该节点上丢失的块。

Q：如何理解Google集群系统原型？

A：Google的数据中心使用廉价的Linux PC机组成集群，在上面运行各种应用。核心组件是3个：
(a) GFS（Google File System）。一个分布式文件系统，隐藏下层负载均衡，冗余复制等细节，对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它进行了特别优化，包括：超大文件的访问，读操作比例远超过写操作，PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块，分布在集群的机器上，使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点，根据文件索引，找寻文件块。详见Google的工程师发布的GFS论文。
(b) MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value对，Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统，下层设施把Map和Reduce操作分布在集群上运行，并把结果存储在GFS上。
(c) BigTable。一个大型的分布式数据库，这个数据库不是关系式的数据库。像它的名字一样，就是一个巨大的表格，用来存储结构化的数据。

配置

如果不能查看，看如下帖子处理
http://www.cnblogs.com/zlslch/p/6604189.html

伪分布式模式

Hadoop运行模式

Hadoop运行模式包括：本地模式、伪分布式模式以及完全分布式模式

启动HDFS并运行MapReduce程序

伪分布式只有一台，且按照完全分布式的流程来搭建的。

配置：core-site.xml

<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name><!--本地的文件系统-->
  <value>hdfs://cznczaihadoop101:9000</value><!--默认是本地的,然后将其改成hdfs-->
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
  <name>hadoop.tmp.dir</name>
  <value>/opt/module/hadoop-2.10.0/data/tmp</value>
</property><!--改到了hadoop目录下-->

配置：hadoop-env.sh

如果没法获取路径 就要 source etc/profile
root@cznczaihadoop101:/opt/module/hadoop-2.10.0# java -version
java version "1.8.0_241"
Java(TM) SE Runtime Environment (build 1.8.0_241-b07)
Java HotSpot(TM) 64-Bit Server VM (build 25.241-b07, mixed mode)
root@cznczaihadoop101:/opt/module/hadoop-2.10.0# echo $JAVA_HOME
/opt/module/jdk1.8.0_241

hadoop集群上的副本有3
我们修改为2 只要添加立即备份原来只有一份

配置：hdfs-site.xml

<!-- 指定HDFS副本的数量 -->
<property>
  <name>dfs.replication</name>
  <value>1</value>
</property>

格式化NameNode（第一次启动时格式化，以后就不要总格式化）
```
root@cznczaihadoop101:/opt/module/hadoop-2.10.0# bin/hdfs namenode -format
```

启动NameNode

root@cznczaihadoop101:/opt/module/hadoop-2.10.0# sbin/hadoop-daemon.sh start namenode

启动DataNode

root@cznczaihadoop101:/opt/module/hadoop-2.10.0# sbin/hadoop-daemon.sh start datanode

查看进程
```
JPS
```
查看是否运行
```
http://192.168.47.101:50070/
```
使用

创建路径

root@cznczaihadoop101:/opt/module/hadoop-2.10.0# bin/hdfs dfs -mkdir -p /user/cznczai/input

图片说明

上传文件HDFS

root@cznczaihadoop101:/opt/module/hadoop-2.10.0# bin/hdfs dfs -put wcinput/wc.input /user/cznczai/input

图片说明
权限所有者组大小时间副本数块大小【溢出为新块】

测试运行

# bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount  /user/cznczai/input/wc.input /user/cznczai/ouput

图片说明

伪分布式 Log日志查看和NN格式化

格式化NameNode

查看进程有没有关掉 jps
删除 data logs 目录
格式化

为什么不能一直格式化NameNode，格式化NameNode，要注意什么

data记录的是实实在在集群上的数据
name文件夹 namenode的数据

有相同的集群id 如果其中一个对不上对面就会出错

原因

启动YARN并运行MapReduce程序

配置yarn-env.sh
配置一下JAVA_HOME

配置yarn-site.xml
vim etc/hadoop/yarn-site.xml

<!-- Reducer获取数据的方式 shuffle-->
<property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 服务器地址-->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>cznczaihadoop101</value>
</property>

配置：mapred-env.sh

配置： (用mv命令对mapred-site.xml.template重新命名为) mapred-site.xml

<!-- 指定MR运行在YARN上 -->
<property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
</property>

启动集群[namenode 和 datanode 已经启动了]

root@cznczaihadoop101:/opt/module/hadoop-2.10.0# sbin/yarn-daemon.sh  start resourcemanager
root@cznczaihadoop101:/opt/module/hadoop-2.10.0# sbin/yarn-daemon.sh  start nodemanager

全部评论

推荐最新楼层

07-15 12:11

山东大学嵌入式软件工程师

如果真的不喜欢，那就放下对研发岗位的滤镜

这两天跟网友聊天，是一个研一的学弟，他坦言自己读研只是为了提升学历，对代码编程没有任何天赋和兴趣，但是学长学姐们都去了研发岗位，他现在很纠结自己后面是不是也必须从中选择一个方向然后奔着研发岗去努力。然后我就意识到，读研期间，我们对研发岗是有很浓的滤镜的，本身就是工科专业，与计算机相关，所以实验室里前些年几乎所有人都是奔着软件开发或者机器人算法，反正只要不是继续读博，高低是个工程师。我问“那考公考编的多吗”，得到的回答基本上就是“万般皆下品，惟有研发高”。其实也好理解，往前倒推几年，研发岗位门槛低，赚钱多，都不用双九学历，只要是个单九硕，实验室那些师兄师姐随随便便进去就是总包四五十万，所以很多人...

SAGIMA牛马咖啡

点赞评论收藏

不愿透露姓名的神秘牛友

07-15 17:24

大哥哥，你是骗子嘛

好专业的话术呢，差点深陷其中了呢，呵，男人

点赞评论收藏

05-24 10:19

湖南信息职业技术学院 Web前端

这样的是正经面试吗？

#面试#

每晚夜里独自颤抖：要求太多的没必要理

点赞评论收藏

07-11 22:27

中南大学 Java

27小登暑期沉淀开学能投大厂吗

目前正在看苍穹外卖，现在看大厂的面经基本都不会😭也没有实习经历找了一个小厂，但是太水估计跑路了。

程序员牛肉：学历的话没问题。但是没问题的也就只有学历了。其实你的整体架构是正确的，博客接着干。但是项目有点过于简单了。从后端的角度上讲，你这也就是刚入门的水平，所以肯定约面试够呛。如果你要应聘后端岗位，那你第一个项目竟然是仿写操作系统。这个你要面试官咋问你。你一定要记住一点，你简历上写的所有的东西，都是为了证明你有能力胜任当前的岗位，而不是为了证明你自己会什么。如果你只是浅浅的做几个项目，描述也都是烂大街。技术点也都是各种混水类的配置类需求，那你就不要幻想自己能走多远。一定要保持思考，保持学习。

点赞评论收藏