引言

本文出于一个疑问:hadoop
namenode -format到底在我的linux系统里面做了些什么?

步骤

1个文件bin/hadoop

Hadoop脚本位于hadoop根目录下的bin目录下,

打开之后阅读源代码:

在这里$1即为参数namenode

将COMMAND赋值为$1,那么COMMAND=namenode

条件判断语句的执行流到达#hdfs下的一行:

因为这一行判断COMMAND是否等于namenode
secondarynamenode等之一;

接着往下读:

判断"${HADOOP_HDFS_HOME}"/bin/hdfs存在,且为一个文件,那么就会执行

${HADOOP_HDFS_HOME}/bin/hdfs
${COMMAND/dfsgroups/groups} $@

在这里${HADOOP_HDFS_HOME}/bin/hdfs
就是根目录下的bin目录下的hdfs脚本,${COMMAND/dfsgroups/groups}就是namenode,而$@则是-format;

2个文件bin/hdfs

注意文件中间:

设置了2个变量CLASS
以及HADOOP_OTS

和文件末尾:

通过使用echo指令,可以查看这些参数:

/usr/jdk1.8.0_51/bin/java

namenode

-Xmx1000m

-Djava.library.path=/usr/local/hadoop-2.6.0/lib
-Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/usr/local/hadoop-2.6.0/logs
-Dhadoop.log.file=hadoop.log
-Dhadoop.home.dir=/usr/local/hadoop-2.6.0 -Dhadoop.id.str=hadoop
-Dhadoop.root.logger=INFO,console
-Dhadoop.policy.file=hadoop-policy.xml
-Djava.net.preferIPv4Stack=true -Djava.net.preferIPv4Stack=true
-Dhadoop.log.dir=/usr/local/hadoop-2.6.0/logs
-Dhadoop.log.file=hadoop.log
-Dhadoop.home.dir=/usr/local/hadoop-2.6.0 -Dhadoop.id.str=hadoop
-Dhadoop.root.logger=INFO,console
-Dhadoop.policy.file=hadoop-policy.xml
-Djava.net.preferIPv4Stack=true -Dhadoop.security.logger=INFO,RFAS
-Dhdfs.audit.logger=INFO,NullAppender
-Dhadoop.security.logger=INFO,RFAS
-Dhdfs.audit.logger=INFO,NullAppender
-Dhadoop.security.logger=INFO,NullAppender

org.apache.hadoop.hdfs.server.namenode.NameNode

-format

这是一个完整的java指令,

其中-D<名称>=<值>
设置系统属性,Xmx1000m设置JVM最大可用内存为1GB;

这个不是重点,重点在后面:CLASS为

org.apache.hadoop.hdfs.server.namenode.NameNode

也就是说java要通过一系列的选项和参数运行

org.apache.hadoop.hdfs.server.namenode.NameNode.class

接下来就是查看这个CLASS的源代码了

第3个文件NameNode.java

这个文件位于

hadoop-2.6.0-src/hadoop-hdfs-project/hadoop-hdfs/src/main/java/org/apache/hadoop/hdfs/server/namenode/

其中hadoop-2.6.0-src是hadoop2.6.0的源码,可以直接在apache
hadoop网站上下载,然后解压就可以了。

首先,找到main函数:

位于源码第1497行,

没错,就是这样一段短小精悍的代码!

做了什么呢?

第一部分,if条件语句暂时无视;

第二部分,try
-catch模块,

StringUtils.startupShutdownMessage(NameNode.class,
argv, LOG);

根据名字分析,这个是用来显示Message的.先无视.

重点在这一行代码:

调用函数createNameNode(a,b);

找这个函数,在1365行:

返回类型为NameNode的静态成员函数.

依次做了这样几件事情:

1.写LOG

2.创建一个HdfsConfiguration对象

3.创建一个StartupOption类的对象

4.设置StartupOption

5.switch-case

在这个条件语句模块里面找到FORMAT,

执行format函数,意思就是这个函数用来格式化namenode的了?

在903行,找到了:

跳到真正执行format指令的那一步

使用了2个对象fsn和fsImage,

留意在932行,

FSImage fsImage =
new FSImage(conf, nameDirsToFormat, editDirsToFormat) ;

现在就需要弄明白FSImage是怎样的一个类,以及format方法实现了怎样的功能.

说明:以下步骤均在bluefish工具的协助下进行

第138行:

对应运行hadoop
namenode -format时的log:

工作是由”storage.format(ns);”这行代码完成的

打开NNStorage.java,找到format(ns)方法;

打开Storage.java,找到clearDirectory()方法:

接下来就是FileUtil.fullyDelete(curDir)了.

在源码中没有找到fs.FileUtil,在hadoop
API中查找到了

public static void
fullyDelete(FileSystem fs,Path dir);

这样就删除了一个目录树了,运行时,dir显示为:

/tmp/hadoop-hadoop/dfs/name

经检查发现这个目录依然存在,并且目录下存在文件:

为什么会出现这种情况?

而且,在hadoop2.6.0的源代码中为什么找不到fs.FileUtil?

这些问题有待解决.

尽管如此,在format前后,对比文件占用容量大小:

Namenode Format前:

NameNode Format后:

可以看出,在执行了hadoop
namenode -format之后,name目录占用的空间从1.1M
降低至24K

总结

本文的初衷是摸索出一条命令执行的流程,从而加深对hadoop系统的认识。

不过,这些步骤只是做了一点皮毛的功夫,并没能触及hadoop最核心的部分,不管是作为一个分布式系统也好,还是一个java开源项目也好。

尽管如此,我们可以以此为切入点,如同滚雪球一样一点一点加深对这个生态系统的把握。

最新文章

  1. ABP源码分析十三:缓存Cache实现
  2. POJ 2528 Mayor&#39;s posters(线段树+离散化)
  3. java访问ftp的一些操作
  4. CPU的内部架构和工作原理
  5. sql server 2016 management studio没有的解决方式
  6. 【nginx网站性能优化篇(2)】反向代理实现Apache与Nginx的动静分离(LNMPA)
  7. PHP接口和抽象类的区别
  8. php url 伪静态
  9. 避免循环做SQL操作
  10. 个人作业3—个人总结(Alpha阶段)
  11. JPA 注解的CascadeType属性
  12. 抛弃JQ,回归原生js……
  13. [NOIp 2014]解方程
  14. 论文笔记【三】A Deep Dive into Word Sense Disambiguation with LSTM
  15. 三台机器之间ssh互信配置
  16. [js] 处理字符串换行造成的json解析失败
  17. AngularJs 常用指令标签
  18. python正则表达式获取两段标记内的字符串
  19. rcp(插件开发)点击按钮出现 The chosen operation is not enabled 解决办法
  20. 快速找到自己想要用到的cocos2d-x的缓冲动画

热门文章

  1. vs2015 加载项目的时启动:无法启动 IIS Express Web 服务器
  2. 利用STM32CubeMX来生成USB_HID_Mouse工程【添加ADC】(2)【非dma和中断方式】
  3. Spring boot 配置 mybatis xml和动态SQL 分页配置
  4. sql server紧急状态下登录脚本
  5. WPF Chart
  6. Linux背背背(3)
  7. 在consul上注册web服务
  8. Mac搭建kubernetes dashboard全流程
  9. 【Linux】【Jenkins】编译过程中遇到ERROR: Failed to parse POMs的解决方案
  10. redis 10个问题