一、概述

Linux 内核(以下简称内核)是一个不与特定进程相关的功能集合,内核的代码很难轻易的在调试器中执行和跟踪。开发者认为,内核如果发生了错误,就不应该继续运 行。因此内核发生错误时,它的行为通常被设定为系统崩溃,机器重启。基于动态存储器的电气特性,机器重启后,上次错误发生时的现场会遭到破坏,这使得查找 内核的错误变得异常困难。

线上的k8s集群,有时候回出现重启的现象,但是什么原因导致重启,无法得知。

Kdump

Kdump 是一种基于 kexec 的内存转储工具,目前它已经被内核主线接收,成为了内核的一部分,它也由此获得了绝大多数 Linux 发行版的支持。与传统的内存转储机制不同不同,基于 Kdump 的系统工作的时候需要两个内核,一个称为系统内核,即系统正常工作时运行的内核;另外一个称为捕获内核,即正常内核崩溃时,用来进行内存转储的内核。

关于如何设置 kump,请参考链接:

https://blog.csdn.net/bytxl/article/details/45025183

因此,线上已经部署了Kdump,用来捕捉崩溃

二、监控脚本

系统什么时间发生了重启?不知道。所以需要有一个脚本来监测一下,一旦发生重启,就可以使用 crash分析内存转储文件

怎么知道系统重启

在ubuntu系统中,有一个 last reboot 命令,它会显示系统重启的历史列表

执行命令,效果如下:

root@localhost:~# last reboot
reboot system boot 4.4.0-119-generi Mon Jan 7 13:50 still running
reboot system boot 4.4.--generi Sat Jan : - : (+:)
reboot system boot 4.4.--generic Sat Jan : - : (:) wtmp begins Sat Jan ::

看姿色的文字,它排在第一行,也就是最近一次的重启记录。

判断条件

怎么知道昨天,系统有没有重启呢?

很简单,先用 last reboot 获取最近一次的重启时间。再获取昨天的时间,将2个时间做对比,如果一致,就说明昨晚重启了,否则没有。

获取最新一次重启时间

# 最近一次重启时间
lately=`last reboot | head - | awk '{print $5,$6,$7}'`

昨日时间

# 昨天时间
yesterday=`date -d "-1 days" | awk '{print $1,$2,$3}'`

Prometheus数据

我们需要构造Prometheus数据,将数据发送给Pushgateway,最后由Grafana 展示图表以及做报警

这里我们使用shell脚本来构造数据,格式如下:

监控名{destinationName="描述信息",instance="实例,默认值为空"} 值

这些数据,我是放在一个临时文件 /tmp/check_system_restart 里面

echo "system_restart{destinationName=\"system_restart\",instance=\"$HOSTNAME\"} 1" > /tmp/check_system_restart

注意:使用由于echo外部使用了双引号,所以内部再次使用双引号时,需要使用反斜杠进行转义才行。

我们知道,在shell里面,单引号是无法引用变量的,必须使用双引号!

$HOSTNAME 是linux 系统的一个全局变量,表示主机名

发送数据

cat /tmp/check_system_restart|curl --data-binary @- http://$localIP:9091/metrics/job/system_restart_`echo $localIP | awk -F '.' '{print $NF}'`

解释:

--data-binary 参数表示 HTTP POST请求中的数据为纯二进制数据

$localIP  表示 Pushgateway的ip地址

echo $localIP | awk -F '.' '{print $NF}'  表示获取ip地址的最后一位

注意:这里的job后面跟了一段字符串,是为了保证每一台服务器发送的url不一致。这样监控数据就不会被其他主机覆盖!

关于Pushgateway 的搭建,请参考链接:

https://www.cnblogs.com/xiao987334176/p/9933963.html

添加任务计划

常规情况下,我们一般使用 crontab -e 命令来添加任务计划

但是在shell脚本,却不能这么操作。

其实,直接修改  /etc/crontab  文件,也可以添加任务计划

下面一段代码,用来判断任务计划是否已经添加,不存在时,就添加!

if [ `cat /etc/crontab|grep 'check_reboot.sh'|wc -l` -eq  ];then
cp -f /opt/check_reboot.sh /etc/ && chmod /etc/check_reboot.sh
echo "0 * * * * root bash /etc/check_reboot.sh" >>/etc/crontab
fi

完整代码

请将代码务必放到/opt目录下,因为代码路径写死了!!!

check_reboot.sh

#!/bin/bash

# 最近一次重启时间
lately=`last reboot | head - | awk '{print $5,$6,$7}'` # 昨天时间
yesterday=`date -d "-1 days" | awk '{print $1,$2,$3}'` # 判断时间是否一致
if [ "$string" == "$yesterday" ];then
# 写入日志
#echo "$HOSTNAME restarted at $lately" >> /opt/restart.log
echo "system_restart{destinationName=\"system_restart\",instance=\"$HOSTNAME\"} 1" > /tmp/check_system_restart
else
echo "system_restart{destinationName=\"system_restart\",instance=\"$HOSTNAME\"} 0" > /tmp/check_system_restart
fi # 获取geteway服务器ip
localIP=`ip addr | grep '192.168' | awk '{print $2}' | cut -d '/' -f ` # 发送数据给Pushgateway
if [ `cat /tmp/check_system_restart|wc -l` -ge ];then
cat /tmp/check_system_restart|curl --data-binary @- http://$localIP:9091/metrics/job/system_restart_`echo $localIP | awk -F '.' '{print $NF}'`
else
curl -X DELETE http://$localIP:9091/metrics/job/system_restart_`echo $localIP | awk -F '.' '{print $NF}'`
fi # 添加任务计划
if [ `cat /etc/crontab|grep 'check_reboot.sh'|wc -l` -eq ];then
cp -f /opt/check_reboot.sh /etc/ && chmod /etc/check_reboot.sh
echo "0 * * * * root bash /etc/check_reboot.sh" >>/etc/crontab
fi

执行脚本,就会自动产生 /tmp/check_system_restart 文件。

查看文件内容

root@localhost:~# cat /tmp/check_system_restart
system_restart{destinationName="system_restart",instance="xx-node01"}

自动将脚本复制到 /etc/check_reboot.sh,这样是为了路径统一,方便添加任务计划!

最后,会自动添加任务计划!

任务计划定义的是每个小时执行一次,为了不等那么长时间,可以先手动执行一次 /etc/check_reboot.sh 脚本

查看 Pushgateway 数据

就会看到一条job

三、Grafana添加监控

添加一个图形,标题叫做 昨日系统重启

设置显示的值

设置报警策略

当最后一个值等于1时,触发报警

效果如下:

最新文章

  1. vim添加代码折叠功能
  2. JS快速获取图片宽高的方法
  3. Android 图文数据JSON解析
  4. Windows2003 II6.0 FTP 开了防火墙 FTP不能正常工作的解决办法
  5. 用自然语言的角度理解JavaScript中的this关键字
  6. ti processor sdk linux am335x evm /bin/setup-targetfs-nfs.sh hacking
  7. XTUOJ1247 Pair-Pair 预处理+暴力
  8. mybatis09
  9. YII学习笔记-登录后的session的总结
  10. MyEclipse修改项目名称
  11. ORM的概念, ORM到底是什么
  12. 【ShaderToy】跳动的心❤️
  13. gitolite服务器部署中的一些坑
  14. STM32F0使用LL库实现PWM输出
  15. 使用openSSL开源工具进行SSL/TLS 安全测试
  16. django之 使用views.py里面的函数对表进行增删改查 内容(models.py中表的创建、views.py中函数的使用,基于对象的跨表查询)
  17. C++中几种测试程序运行时间的方法<转>
  18. Python基础之好玩的字符串格式化之类C风格
  19. 四则运算ver.mk2
  20. virtualbox centos 网络配置

热门文章

  1. JavaEE学习总结(十二)—MyEclipse开发工具与HTML
  2. Makefile 中符合的使用
  3. JS 将字符串数组用 | 或其他符号分割
  4. JS获取客户端IP地址、MAC和主机名【转】
  5. JavaScript之函数存储[摘]
  6. Flask最强攻略 - 跟DragonFire学Flask - 第五篇 做一个用户登录之后查看学员信息的小例子
  7. JavaScript学习 - 基础(八) - DOM 节点 添加/删除/修改/属性值操作
  8. Potential Pythonic Pitfalls
  9. linux 定期清除日志
  10. 算法导论 之 红黑树 - 删除[C语言]【转】