hadoop2.4完全分布式部署

感谢:http://blog.csdn.net/licongcong_0224/article/details/12972889

集群组成:

两台red hat ent 6.5 x64 服务器

192.168.16.100 master
192.168.16.101 cupcs3

注意:master和cupcs3分别是两台服务器的hostname

1. 下载编译hadoop2.4,编译方法:http://www.cnblogs.com/wrencai/p/3897438.html

2. 修改相关配置文件,如下:

hadoop-env.sh文件
修改JAVA_HOME值(export JAVA_HOME=/YOURJDK_HOME) yarn-env.sh文件
修改JAVA_HOME值(export JAVA_HOME=/YOURJDK_HOME)
slaves文件添加如下:注:此处我们将主节点master也所谓了一个slave这样在启动的时候主节点上也会启动datanode和nodemanager两个进程
master
cupcs3 core-site.xml文件
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://master:9000</value>
</property> <property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property> <property>
<name>hadoop.tmp.dir</name>
<value>/home/bigdata/hadoop-2.4.1/tmp/hadoop-${user.name}</value>
<description>Abase for other temporary directories.</description>
</property> <property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property> <property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property> </configuration> hdfs-site.xml文件
<configuration>
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>master:9001</value>
</property> <property>
<name>dfs.namenode.name.dir</name>
<value>file:/home/bigdata/hadoop-2.4.1/dfs/name</value>
</property> <property>
<name>dfs.datanode.data.dir</name>
<value>file:/home/bigdata/hadoop-2.4.1/dfs/data</value>
</property> <property>
<name>dfs.replication</name>
<value>2</value>
</property> <property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property> </configuration> mapred-site.xml文件
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property> <property>
<name>mapreduce.jobhistory.address</name>
<value>master:10020</value>
</property> <property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>master:19888</value>
</property> </configuration> yarn-site.xml文件
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property> <property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property> <property>
<name>yarn.resourcemanager.address</name>
<value>master:8032</value>
</property> <property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>master:8030</value>
</property> <property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>master:8031</value>
</property> <property>
<name>yarn.resourcemanager.admin.address</name>
<value>master:8033</value>
</property> <property>
<name>yarn.resourcemanager.webapp.address</name>
<value>master:8088</value>
</property> </configuration>

3. 配置服务器之间的ssh无密码连接:

在每台服务器上都执行

ssh-keygen -t rsa -P ''

执行完成后在~/.ssh隐藏目录下会生成 id_rsa和id_rsa.pub两个文件。

3.1 拷贝出所有机器上生成的id_rsa.pub文件内容到同一个文本文件中,然后将该文件命名为authorized_keys,然后将这个拷贝到所有机器的~/.ssh目录下面。

3.2 修改文件:vi /etc/ssh/sshd_config

   RSAAuthentication yes                                    开启RSA加密方式
PubkeyAuthentication yes 开启公钥认证
AuthorizedKeysFile .ssh/authorized_keys 公钥存放位置 PasswordAuthentication yes 使用密码登录 GSSAPIAuthentication no 防止登录慢,以及报错问题 ClientAliveInterval 300秒超时自动退出
ClientAliveCountMax 允许SSH远程连接的最大数

这样就完成了ssh无密码访问配置。

4.修改/etc/hosts文件,配置各个节点的ip和主机名映射关系,在本例中在每台机器的/etc/hosts中添加如下

192.168.16.100 master
192.168.16.101 cupcs3

5.关闭各台服务器上的防火墙,否则启动hadoop后,可能会出现各个进程启动正常,但是master监视不到slaves节点的情况。(下面两种方法任选其一)

5.1 重启后永久性生效:

开启:chkconfig iptables on

关闭:chkconfig iptables off

5.2 即时生效,重启后失效:

开启:service iptables start

关闭:service iptables stop

6.运行测试:

6.1格式化hdfs文件系统:

./HADOOP_HOME/bin/hadood namenode –format

6.2启动集群

./HADOOP_HOME/sbin/start-all.sh

成功启动后,执行jps命令,在master上看到如下进程

 ResourceManager
NameNode
SecondaryNameNode
DataNode
NodeManager
Jps

cupcs3上看到如下进程

 NodeManager
DataNode
Jps

执行hdf dfsadmin -report命令,得到结果如下:

[bigdata@master]$ hdfs dfsadmin -report
Configured Capacity: (869.76 GB)
Present Capacity: (795.16 GB)
DFS Remaining: (791.13 GB)
DFS Used: (4.03 GB)
DFS Used%: 0.51%
Under replicated blocks:
Blocks with corrupt replicas:
Missing blocks: -------------------------------------------------
Datanodes available: ( total, dead) Live datanodes:
Name: 192.168.16.100: (master)
Hostname: master
Decommission Status : Normal
Configured Capacity: (434.82 GB)
DFS Used: (4.00 GB)
Non DFS Used: (37.03 GB)
DFS Remaining: (393.80 GB)
DFS Used%: 0.92%
DFS Remaining%: 90.56%
Configured Cache Capacity: ( B)
Cache Used: ( B)
Cache Remaining: ( B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Last contact: Fri Sep :: CST Name: 192.168.16.101: (cupcs3)
Hostname: cupcs3
Decommission Status : Normal
Configured Capacity: (434.93 GB)
DFS Used: (32.92 MB)
Non DFS Used: (37.57 GB)
DFS Remaining: (397.33 GB)
DFS Used%: 0.01%
DFS Remaining%: 91.35%
Configured Cache Capacity: ( B)
Cache Used: ( B)
Cache Remaining: ( B)
Cache Used%: 100.00%
Cache Remaining%: 0.00%
Last contact: Fri Sep :: CST [bigdata@master]$

同时在 浏览器下http://master:50070 可以查看hdfs的页面 http://master:8088 可以查看hadoop进程管理页面

最新文章

  1. 弹出iframe内嵌页面元素到父页面并全屏化
  2. 运行 Spark on YARN
  3. SharePoint 2013 列表关于大数据的测试&lt;二&gt;
  4. Python之调用函数
  5. HTTP协议详解(一直在用可是这篇太好了转一下)
  6. OpenJudge/Poj 1658 Eva&#39;s Problem
  7. 51nod贪心算法入门-----活动安排问题2
  8. safari的input问题
  9. C# 中4个访问符和8个修饰符详解
  10. sicily-1029 Rabbit
  11. spring boot项目编译出来的jar包如何更改端口号
  12. python学习之初识字符串
  13. 修改dll的错误打开方式
  14. html5 选择多张图片在页面内预览并上传到后台
  15. java过滤器filter使用
  16. mysql取年、月、日、时间
  17. 深入理解JAVA虚拟机阅读笔记3——垃圾回收器
  18. java 表单验证
  19. smarty基本用法,循环,判断
  20. Python|一文简单看懂 深度&amp;广度 优先算法

热门文章

  1. MVC Movie App
  2. JQuery日记_5.14 Sizzle选择器(七)
  3. Block系列2:Block内存管理
  4. ELK学习笔记
  5. 可伸缩Web架构与分布式系统(2)
  6. 《从零開始学Swift》学习笔记(Day 57)——Swift编码规范之凝视规范:文件凝视、文档凝视、代码凝视、使用地标凝视
  7. [翻译]JUnit 5 用户手册
  8. 压测过程中,CPU和内存占用率很高,案例简单分析
  9. internet与Internet的区别
  10. python判断文件是否存在目录中