1. 前言

每一次搭建集群环境都像一次战斗,作战中任何一个细节的出错都会导致严重的后果,所以搭建中所需要做的配置如系统配置、网络配置(防火墙记得关)、用户权限、文件权限还有配置文件等等内容,都必须非常仔细,将失误扼杀在摇篮之中,避免因为粗心或者想要提高速度省下的一分钟,在后面付出几个小时的调试时间,因小失大实在不值,切记核对、核对再核对

今天就来说说在搭建ZooKeeper集群遇到的一个常见的问题Connection refused,也就是网上很多朋友也会出现的问题,问题的表现也许是一样,但是导致问题的原因却不尽相同,所以要重视自己的log文件报的错误,再确认外部大环境没有的情况下,集中力量解决log中的错误。

2. 我的问题

下面是我在搭建集群时报的错:

这是表面上错误
2016-12-08 05:11:07,890 [myid:1] - WARN [QuorumPeer[myid=1]/0:0:0:0:0:0:0:0:2181:QuorumCnxManager@382] - Cannot open channel to 5 at election address lzx15/192.168.80.175:3888
java.net.ConnectException: Connection refused
at java.net.PlainSocketImpl.socketConnect(Native Method)
at java.net.AbstractPlainSocketImpl.doConnect(AbstractPlainSocketImpl.java:339)
at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200)
at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:579)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.connectOne(QuorumCnxManager.java:368)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.connectAll(QuorumCnxManager.java:402)
at org.apache.zookeeper.server.quorum.FastLeaderElection.lookForLeader(FastLeaderElection.java:840)
at org.apache.zookeeper.server.quorum.QuorumPeer.run(QuorumPeer.java:762)
at java.net.AbstractPlainSocketImpl.connectToAddress(AbstractPlainSocketImpl.java:200)
at java.net.AbstractPlainSocketImpl.connect(AbstractPlainSocketImpl.java:182)
at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:392)
at java.net.Socket.connect(Socket.java:579)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.connectOne(QuorumCnxManager.java:368)
at org.apache.zookeeper.server.quorum.QuorumCnxManager.connectAll(QuorumCnxManager.java:402)
at org.apache.zookeeper.server.quorum.FastLeaderElection.lookForLeader(FastLeaderElection.java:840)
at org.apache.zookeeper.server.quorum.QuorumPeer.run(QuorumPeer.java:762)
这是实际上的错误
java.io.FileNotFoundException: /home/hadoop/data/zookeeper/zkdata/version-2/acceptedEpoch.tmp(Permissoin denied)

3. 其他人的解决方案:

主要为以下两点:

1)防火墙没关导致通讯失败,无法连接到其他节点上,我在反复检查之后确认防火墙已全部关闭,所以这个方法对我的问题无效

命令行:chkconfig iptables off (关闭防火墙)

    service iptables status(查看防火墙状态)

2)配置文件问题

  a. /zookeeper/conf/zoo.cfg文件配置问题

  例如dataDir格式不对,或者没有创建dataDir指定的文件等等,所以细心地检查你的配置文件,至于这个文件的内容请大家自行百度。

  b. dataDir指定的目录下创建myid文件,然后再文件写上你在zoo.cfg中该节点的对应server号,例如server.1,那么myid中就写1。

4. 我的解决方案  

找到zookeeper的log文件zookeeper.out在哪里?正常的路径是 你的zookeper安装目录/zookeeper.out,我在这个zookeeper.out只能找到那个表面的错误即Connection refused,所以一直找不到问题,最后我在无意中发现

[hadoop@lzx11 hadoop]$ cd /home/hadoop
[hadoop@lzx11 ~]$ ls
app data tools zookeeper.out

  我在这个zookeeper.out中找到我问题的真实错误,/home/hadoop/data/zookeeper/zkdata/version-2/acceptedEpoch.tmp(Permissoin denied),所以我去查看了verison-2文件夹的权限,发现他居然是root用户的,我立刻把它转到hadoop用户下,然后再重新启动集群,三个节点启动成功。

 5. 总结

  很多时候我们都会去针对遇到的表面问题来寻找解决思路,但是很多问题只是因为其他地方出了问题导致的,所以在你认为找到解决目前这个问题的方法后却仍然没有能解决问题的时候,想想会不会在前面某个地方出错,去别的地方找找答案,记住,钥匙一般不在锁里面。

最新文章

  1. SPI总线通信电路设计
  2. Ubuntu 的基本操作
  3. Android RecyclerView添加Header头部
  4. [shell基础]——sort命令
  5. .net 数据库连接池超时问题
  6. js_sl 无缝切换
  7. sync fsync fdatasync ---systemtap跟踪
  8. WCF技术剖析之九:服务代理不能得到及时关闭会有什么后果?
  9. Java反射机制示例
  10. AES加密然后ajax传输数据
  11. android studio设置窗口颜色和字体
  12. shell脚本自动登录服务器
  13. 第 5 章 网络 - 032 - 学容器必须懂 bridge 网络
  14. 查看MySQL的线程
  15. python打包为独立可执行程序
  16. MariaDB实现主从配置及读写分离(一)
  17. python re 库的使用
  18. Java编程的逻辑 (66) - 理解synchronized
  19. Visual studio之C# 调用系统软键盘(外部"osk.exe")
  20. 4.kafka的安装部署

热门文章

  1. 正则表达式preg_replace中危险的/e修饰符带来的安全漏洞问题
  2. 李洪强经典面试题152-Runtime
  3. python中类的三种属性
  4. CentOS7 SWAP 设置 (实测 笔记)
  5. Unity自动寻路Navmesh之入门
  6. TP5与TP3.X对比
  7. php面向对象中的几个基本定义
  8. 多文档上传(upload multiple documents)功能不能使用怎么办?
  9. 一个基于Orchard的开源CRM --coevery简介
  10. HTML和CSS经典布局1