CDH大数据集群修复记录

1)cm web打不开,查看监听7180端口产生了很多进程,于是kill进程;重启cloudera-cmf-server服务,几秒钟就挂了,查看cloudera-scm-server运行日志是由于mysql服务挂了。

2)查看mysql错误日志,mysql是默认安装在/根分区下的,由于根分区空间不足,无法启动mysql;清理了一些垃圾,重启mysql成功了;重启cloudera-cmf-server成功,但是各个组件出现了很多配置问题;于是重启所有组件,不能重启,究其原因,因与主节点失去联系太久,日志报很多错误;于是重启主机下各个组件,也不能重启,现在各个组件都无法启动;但是进程还在,过了一天后,各个进程死掉了。

遇到问题:a.系统分区空间不足,删掉垃圾文件

b.默认的/var/log日志文件空间不足,更改路径

c.无法检测各个主机JAVA_HOME,配置JAVA主目录

d.权限问题:日志文件夹drwxrwxrwx依次代表u,g,o,组别和拥有者

e.版本不匹配的问题:cm-guid删掉,重启所有agent

f.生成的/opt/lib/下的数据文件可以删除

g.关闭防火墙、关闭SELINUX安全控制

3)重启cloudera-scm-server:/opt/cm-5.10.0/etc/init.d/cloudera-scm-server restart

4)查看日志分析和网上百度,修复各个主机配置、终于发现原来是代理agent id不一样的问题:

删除各个主机下:rm /opt/cm-5.10.0/lib/cloudera-scm-agent/cm-guid

重启各个主机下:/opt/cm-5.10.0/etc/init.d/cloudera-scm-agent restart

5)重启cloudera manager service服务

6)重启各个组件(hdfs/hbase/hive/yarn等)服务

7)注意各个组件的log日志文件路径和lib生成的文件以及所需要的JDK根目录是否配置

8)学会使用cm web端查看日志,搜索错误信息

最新文章

  1. 故障重现, JAVA进程内存不够时突然挂掉模拟
  2. Spring系列之Spring常用注解总结
  3. Oracle常用命令(持续更新)
  4. Cenos(6.6/7.1)下从源码安装Python+Django+uwsgi+nginx到写nginx的环境部署(一)
  5. Oracle数据库对象_视图
  6. c++ 时间与字符串转换
  7. 南方数据企业0day
  8. androidHandler讲解
  9. jacksons转换大小写处理
  10. 《c陷阱与缺陷》笔记--移位运算
  11. 八种创建等高列布局【出自w3c】
  12. Java SpringMVC 定时任务
  13. iOS 网络监听、判断
  14. SpringMVC的数据转换,格式化和数据校验
  15. Mahout SlopOne
  16. Scrapy爬虫框架第八讲【项目实战篇:知乎用户信息抓取】--本文参考静觅博主所写
  17. shell---命令解析器---简单操作快捷键
  18. Python——glob模块
  19. Vue 虚拟Dom 及 部分生命周期初探
  20. Vmware10组建局域网

热门文章

  1. Maven-Build Lifecycle(构建生命周期)
  2. Java 线程内 递归 Bug 一例
  3. Oracle 测试环境 数据库安装过程
  4. [安全]appscan 使用代理抓取其他客户端的请求
  5. ViewDragHelper
  6. ComboBox中如何嵌套TreeView控件
  7. Lodop客户端本地角色注册号常见误区
  8. 01 基于umi搭建React快速开发框架
  9. 画caffe训练loss曲线
  10. 退役前的记录(2018.10.14-NOIP2018)