由于需要海量的进行聚类,所以将 k-means 算法自我封装成一个方便利用的库,可以直接调用得到最优的 k值中心点

#!/usr/bin/python3.4
# -*- coding: utf-8 -*- # k-means算法 import numpy as np
from sklearn.cluster import KMeans
from sklearn import metrics # sklearn官方文档
# http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html#sklearn.cluster.KMeans
def calckmean(array, karr):
# array是一个二维数组
# X = X = [[1, 1], [2, 3], [3, 2], [1, 2], [5, 8], [6, 6], [5, 7], [5, 6], [6, 7], [7, 1], [8, 2], [9, 1], [7, 1], [9, 3]] # k是待选取K值的数组
# karr = [2, 3, 4, 5, 8,...] # 将原始数据由数组变成矩阵 x = np.array(array) # 用来储存轮廓系数的数组
score = []
# 用来储存中心坐标点的数组
point = []
# 用来储存各个簇的坐标
coordinates = []
# 用来储存各个簇点的与中心的距离
distances = [] for k in karr:
# n_clusters为聚类的个数
# max_iter为迭代的次数,这里设置最大迭代次数为300
# n_init=10使用不同质心种子运行k-means算法的次数
kmeans_model = KMeans(n_clusters=k, max_iter=300,n_init=10).fit(x)
# title = 'K = %s, 轮廓系数 = %.03f' % (k, metrics.silhouette_score(X, kmeans_model.labels))
# print(title) # 获取中心点的坐标
counter_point = kmeans_model.cluster_centers_
# print("k=" + str(k) + "时的中心点为" + "\n" + str(counter_point)) # 记录分数
# print(metrics.silhouette_score(x, kmeans_model.labels_,metric='euclidean'))
score.append("%.03f" % (metrics.silhouette_score(x, kmeans_model.labels_)))
# 记录中心坐标
point.append(counter_point) # 将坐标属于哪个簇的标签储存到数组
# k = 3 : [0 0 0 0 2 2 2 2 2 1 1 1 1 1]
# k = 4 : [1 1 1 1 0 0 0 0 0 3 2 2 3 2]
coordinates.append(kmeans_model.labels_) # 每个点和中心点的距离
distances.append(KMeans(n_clusters=k, max_iter=300).fit_transform(x)) # 返回轮廓系数最大的k值\中心坐标\分簇坐标
maxscore = max(score, default=0) for i in range(0, len(score)):
if maxscore == score[i]:
# 储存分簇坐标的数组
coordinate = []
# 储存簇点与中心点的距离数组
distance = []
for j in range(0, len(point[i])):
# 这里是得到分簇坐标
tempcoor = []
for item in zip(coordinates[i], array):
if item[0] == j:
tempcoor.append(item[1])
coordinate.append(tempcoor)
# 得到的样式为k=3,每个簇点的坐标群
# [[[7, 1], [8, 2], [9, 1], [7, 1], [9, 3]],
# [[5, 8], [6, 6], [5, 7], [5, 6], [6, 7]],
# [[1, 1], [2, 3], [3, 2], [1, 2]]] # 这里是得到分簇与中心点的距离
tempdis = []
for item in zip(coordinates[i], distances[i]):
if item[0] == j:
tempdis.append(min(item[1]))
distance.append(tempdis)
# 得到k=3的各个簇点对中心的距离
# [[1.1661903789690597, 0.39999999999999575, 1.166190378969066, 1.1661903789690597, 1.7204650534085277],
# [1.2649110640673495, 0.9999999999999858, 0.4472135954999452, 0.8944271909999063, 0.6324555320336579],
# [1.25, 1.0307764064044151, 1.25, 0.75]] # 得到k=3的中心点
# [[8.0, 1.6],
# [5.4, 6.8],
# [1.75, 2.0]]
return karr[i], point[i], coordinate, distance

调用的时候直接可以:

from kmeans import *

测试数据:

#!/usr/bin/python3.4
# -*- coding: utf-8 -*- from kmeans import * x1 = np.array([1, 2, 3, 1, 5, 6, 5])
x2 = np.array([1, 3, 2, 2, 8, 6, 7]) # a = [[1, 2, 3, 1, 5, 6, 5], [1, 3, 2, 2, 8, 6, 7], [3, 5, 9, 4, 7, 6, 1], [1, 5, 3, 4, 8, 6, 7], [5, 1, 2, 3, 6, 9, 4],[8, 4, 6, 2, 1, 6, 3]]
a = [[1, 1], [2, 3], [3, 2], [1, 2], [5, 8], [6, 6], [5, 7], [5, 6], [6, 7], [7, 1], [8, 2], [9, 1], [7, 1], [9, 3]]
karr = [2, 3, 4, 5, 8]
# print(np.array(a))
# print(list(zip(x1, x2))) K, point, coordinate, distance = calckmean(X, tests)
print("------------------------")
print("k=" + str(K) + "时的中心点为" + "\n" + str(point) + "\n" + "各个簇点为" + "\n" + str(coordinate))
print(distance)

源文件可以在我的github下载:

TTyb

最新文章

  1. 烂泥:数据库管理之phpmyadmin免密码配置
  2. 返本求源——DOM元素的特性与属性
  3. 【Swift学习】Swift编程之旅---析构方法(十九)
  4. BZOJ4631 : 踩气球
  5. 单片机TM4C123学习(九):PWM
  6. App.Config详解
  7. oracle的用户
  8. Android 定时器TimerTask 简单使用
  9. 搜索之BM25和BM25F模型
  10. boost::xml————又一次失败的尝试
  11. Swift 编程语言学习0.1——Swift简单介绍
  12. codeforces #262 DIV2 C称号Present(二分法+贪婪)
  13. Python自动化开发-简介
  14. 《JAVASCRIPT高级程序设计》创建对象的七种模式
  15. maven使用jstl表达式和The absolute uri: http://java.sun.com/jsp/jstl/core cannot be resolved in either web.xml or the jar files deployed with this application解决
  16. 将一个html文件引入另一个html文件的div中
  17. IntelliJ IDEA2017 激活方法 最新的(亲测可用)
  18. 2019南昌网络赛-M(二分)
  19. 网络推送通知:及时,相关和准确 (navigator.serviceWorker.register(), window.PushManager, new Notification)
  20. 【Linux】 源码安装make命令详解,避免踩坑

热门文章

  1. day22.面向对象初识
  2. js_base_note
  3. UOJ#424. 【集训队作业2018】count 多项式,FFT,矩阵
  4. 2018-2019-2 《网络对抗技术》Exp0 Kali安装 Week1 20165319
  5. 今日报错Cannot access java.lang.String
  6. sql预编译&动态语句静态语句
  7. kaggle之泰坦尼克号乘客死亡预测
  8. echarts-for-react 从新渲染数据
  9. spring-cloud-Zuul学习(四)【中级】--自定义zuul Filter详解【重新定义spring cloud实践】
  10. [LeetCode] Buddy Strings 伙计字符串