K-均值聚类

  1. 优点:易实现。缺点:可能收敛到局部最小值,大规模数据集上收敛较慢;适用于数值型数据。

  2. K-均值聚类(找到给定数据集的k个簇) 算法流程 伪代码:

    创建k个点作为起始质心(经常是随机选择)
    当任意一个点的簇分配结果发生改变时
    对数据集中的每个数据点
    对每个质心
    计算质心到数据点的间距
    将数据点分配到距其最近的簇
    对每个簇,计算簇中所有点的均值并将均值作为质心
  3. 评价指标:误差(实质上是数据点到簇质心的距离的平方值之和,SSE,Sum of Squared

    Error),以上K-均值算法的问题在于:会收敛于局部最小值而非全局最小值。

  4. 二分K-均值算法,伪代码:

    将所有点看成一个簇(m个样本中所有特征的均值组成的向量)
    当簇数目小于K时
    对每一个簇
    计算总误差
    在给定的簇上面进行K-均值聚类(k=2)
    计算将该簇二分之后的总误差
    如果该总误差小于当前最小的误差,则将该总误差记为当前最小的误差
    选择使得误差最小的那个簇进行划分操作
  5. 另一种二分-K均值算法,伪代码

    将所有点看成一个簇(m个样本中所有特征的均值组成的向量)
    当簇数目小于K时
    对每一个簇
    计算总误差
    如果该总误差大于当前最大的误差,则将该总误差记为当前最大的误差
    找到具有最大误差的簇进行K-均值聚类(k=2)
    选择使得误差最小的那个簇进行划分操作

最新文章

  1. struts2+hibernate整合-实现登录功能
  2. emacs工程管理,cedet ede插件自动构建Make,Automake
  3. PhpStorm 设置php代码格式
  4. python-根据字符串动态生成对象eval
  5. UML类图几种关系的总结[转]
  6. 4.4 CUDA prefix sum一步一步优化
  7. yzoi2223集合构造的详细解法
  8. zendguard安装破解
  9. Enabling Active Directory Authentication for VMWare Server running on Linux《转载》
  10. 温故知新-------jQuery层次选择器
  11. 对比React Native、dcloud、LuaView三个框架技术(内部)
  12. PyQt4 的事件与信号 -- 重写事件处理方法
  13. Jenkins配置报告与邮件插件
  14. IdentityServer4实战 - JWT Issuer 详解
  15. REST API设计指导——译自Microsoft REST API Guidelines(二)
  16. docker-3 Apache
  17. 生产者、消费者模型---Queue类
  18. python对redis的常用操作 下 (无序集合,有序集合)
  19. jupyter命令把.ipynb文件转化为.py文件
  20. fastDFS errcode:9 path:Bad file descriptor errcode:22 path:Invalid argument

热门文章

  1. python 字符串 string模块导入及用法
  2. python字符串中的转义符
  3. js中数组遍历常用的方法
  4. Centos安装ifstat统计网络流量
  5. eclipse的代码格式化的个性配置
  6. css:鼠标点击出现有颜色的边框?如何解决
  7. 【Java学习笔记】线程安全的单例模式及双重检查锁—个人理解
  8. AOP技术介绍--(引言)
  9. Tenka1 Programmer Contest C - Align
  10. django之项目部署知识点