每天进步一点点——Ganglia的Python扩展模块开发
2024-10-19 16:29:27
转载请说明出处:http://blog.csdn.net/cywosp/article/details/39701245
注:本文涉及到的代码都在centos 6.5 64bit系统上通过验证,Ganglia版本号为3.1。通过yum安装详细步骤请參考:
1. 概述
Ganglia 项目是由加州大学发起的,如今已经成为一个应用非常广泛集群监控软件。能够监视和显示集群中的节点的各种状态信息,比方如:cpu 、mem、硬盘利用率, I/O负载、网络流量情况等。同一时候能够将历史数据以曲线方式通过php页面呈现。
同一时候具有非常好的扩展性。同意用户增加自己所要监控的状态信息。依据可视化的相关数据,非常easy知道集群的健康状态。而且也能够分析出集群的可优化的地方。
全部这些数据收集会多次影响节点性能。
网络中的“ 抖动( Jitter ) ” 发生在大量小消息同一时候出现,通过ntp服务将节点的时钟保持一致,就能够避免这个问题。
Ganglia的工作原理例如以下图
很多其它关于Ganglia工作原理请參考http://flyerlee.diandian.com/post/2013-06-03/40051002657,本文重点是讲述怎样使用Ganglia提供的Python接口开发自己想要的metric。
2. Ganglia的Metrics
何为metric。在字典中其翻译为标准,度量之意。在ganglia的Web界面中我们看得最多的是例如以下这些图:
这些图还不能算是真正的metric,其仅仅是各个种类的metric的汇总后通过rrdtool画出来的图,便于整体观察。以下这些才是本文要讲述的metric(CPU的metrics):
每个小图表代表着cpu相关信息的一个数据类型。这些数据都是通过相应的部署在各个集群节点的程序模块搜集,而这个搜集模块的开发就是本文要重点解说的。
3. 自己定义metrics开发
向ganglia增加自己定义metric有两种方法,一种是通过命令行的方式执行gmetric,还有一种是通过ganglia提供的面向c和python的扩展模块。增加自己定义的模块支持。
以下使用Python开发一个简单的metric实例:
在/usr/lib64/ganglia/python_modules/中创建random_number.py并加入例如以下代码
#!/usr/bin/env python
# -*- coding: utf-8 -*-
import random
import time
descriptors = list()
def random_number_1(name):
return int(random.uniform(5, 100)) + 10
def random_number_2(name):
return int(random.randrange(50, 500))
def metric_init(params):
global descriptors
random.seed()
print params
d1 = {
'name': 'random_number_1',
'call_back': random_number_1,
'time_max': 90,
'value_type': 'uint',
'units': 'C',
'slope': 'both',
'format': '%u',
'description': 'Random a number',
'groups': 'example random'
}
d2 = {
'name': 'random_number_2',
'call_back': random_number_2,
'time_max': 90,
'value_type': 'uint',
'units': 'C',
'slope': 'both',
'format': '%u',
'description': 'Random a number',
'groups': 'example random'
}
descriptors = [d1, d2]
return descriptors
def metric_cleanup():
pass #This code is for debugging and unit testing
if __name__ == '__main__':
metric_init({})
while True:
for d in descriptors:
v = d['call_back'](d['name'])
print ('value for %s is '+d['format']) % (d['name'], v)
time.sleep(5)
在上面的代码中Ganglia执行的时候会调用metric_init和metric_cleanup两个函数,从这两个函数的名字我们就能得知前一个是做初始化工作,后面一个是做结束资源清理工作的。在Ganglia载入相关模块来执行时,仅仅会调用这两个函数。这里的main函数入口仅仅是为了做调试而写在这里的。
在/etc/ganglia/conf.d/中创建random_number.conf文件,并加入例如以下代码
modules {module {#这里的name值一定要与/usr/lib64/ganglia/python_modules/random_number.py的文件名称保持一致,否则将无法正确执行name = "random_number"language = "python"}}
collection_group {collect_every = 2time_threshold = 90
metric {#这里的name值要与random_number.py中的d1里的name保持一致name = "random_number_1"title = "random number 1"value_threshold = 0}
metric {#这里的name值要与random_number.py中的d2里的name保持一致name = "random_number_2"title = "random number 2"value_threshold = 0}}
配置好文件后重新启动服务
service gmond restartservice gmetad restartservice httpd restart
4. 效果
在浏览器中输入127.0.0.1/ganglia就可以看到监控效果。假设不出问题,则在Metric下拉框中会有例如以下两个选项:
选择当中一项则在当前页面的最下端显演示样例如以下信息:
5. 总结
本文仅仅是讲述了最为简单的Ganglia metric开发,假设想深入了解能够參考Ganglia的官方文档,或者去https://github.com/ganglia上直接查看源代码,当中gmond_python_modules项目里提供了大量常见项目的metrics演示样例。
Ganglia为集群提供了高可视化的监控,不仅能让运维人员高速的清楚集群当前的状态,并且还能让开发者清楚系统的相关执行状态,从而针对性的做出更好的优化。
最新文章
- 【JUC】JDK1.8源码分析之SynchronousQueue(九)
- 第一个PyQt程序
- Oracle数据备份bat
- Python闭包与javascript闭包比较
- Android:自定义适配器
- 网络安装CentOS 5.3
- Serv-u FTP服务器
- 跨平台通信中间件thrift学习【Java版本】(转)
- 【转】C++中的位拷贝与值拷贝
- VC++深入详解读书笔记-第六章菜单
- android textView 富文本显示
- CListCtrl插入数据避免闪烁
- Java知多少(87)选择框和单选按钮(转)
- dom小总结
- Hive篇之安装
- Ocelot 集成Butterfly 实现分布式跟踪
- Lua中的表达式
- 好看的java集合类图
- c++复习:STL之理论基础
- java 向上转型和向下转型
热门文章
- Problem D: 判断上否上三角矩阵
- ES6 Set结构和Map结构(上)
- js处理时间戳
- 8VC Venture Cup 2016 - Elimination Round E. Simple Skewness 暴力+二分
- .NET开源免费的功能强大控件库
- datatables .fnDraw is not a function
- android基础知识复习——RelativeLayout布局属性、背景、半透明设置(XML设置)
- 突破,Objective-C开发速学手册
- Eureka的自我保护机制
- iOS:quartz2D绘图小项目(涂鸦画板)