1.优缺点

优点:

(1)聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类;

(2)与K-MEANS比较起来,不需要输入要划分的聚类个数;

(3)聚类簇的形状没有偏倚;

(4)可以在需要时输入过滤噪声的参数。

缺点:

(1)当数据量增大时,要求较大的内存支持I/O消耗也很大;

(2)当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差,因为这种情况下参数MinPts和Eps选取困难。

(3)算法聚类效果依赖与距离公式选取,实际应用中常用欧式距离,对于高维数据,存在“维数灾难”。

参考

2.原理

DBSCAN参数

Eps——距离阈值,该聚类算法中把距离当做密度表达,距离如何计算也很重要。

MinPts——形成一个核心点所需要最小的直接可达点数,例如改参数设置为5,Eps设置为2,那么一个核心点(包含自己)形成的条件是该核心店距离阈值2以内至少有5个点。

待聚类点分为三类:

  1. 直接可达点   核心点距离阈值内的点成为直接可达点
  2. 可达点   属于不同核心点的直接的可达点通过核心点组成的路径(相邻核心点之间在各自距离阈值内)相连,那么这些直接可达点被称为可达点
  3. 局外点    既不是核心点也不是直接可达点也不是可达点被称为局外点,也可叫做噪声点

3.聚类

同一组直接可达点与可达点形成一个类簇,局外点形成噪声点

最新文章

  1. cookie的session_id解释
  2. My97DatePickerBeta 日历插件
  3. mysql日志与备份恢复
  4. float浮动深入理解
  5. 本地电脑localhost指向127.0.0.1的配置
  6. entOS查看系统信息-CentOS查看命令
  7. 解决方案:安装wordpress出现500 Internal Server Error
  8. require 书写约定
  9. 转:jQuery常用插件
  10. python实现某目录下将多个文件夹内的文件复制到一个文件夹中
  11. 韩顺平Linux学习笔记
  12. 【新特性】JDK11
  13. 博客维护停止,需要的伙伴们移步http://blog.csdn.net/panhouye
  14. php简单使用shmop函数创建共享内存减少服务器负载
  15. 用DDE控制Word
  16. Android中的安全与访问权限控制
  17. NC入门笔记
  18. 【内核】linux内核启动流程详细分析【转】
  19. SQLAlchemy-方言(Dialects)
  20. 一站式学习Wireshark(七):Statistics统计工具功能详解与应用

热门文章

  1. 厉害—Ansible管理windows集群
  2. 带着新人学springboot的应用04(springboot+mybatis+redis 完)
  3. SpringCloud Ribbon的分析
  4. MongoDB的安全写入GetLastError
  5. DocX开源WORD操作组件的学习系列一
  6. ES6躬行记(13)——类型化数组
  7. 关于利用maven搭建ssm的博客,我们一起来探讨下问的最多的问题
  8. 痞子衡嵌入式:第一本Git命令教程(7.1)- 清理之缓存(stash)
  9. JavaScript 中,定义函数时用 var foo = function () {} 和 function foo() {}有什么区别?
  10. C# 判断用户是否对路径拥有访问权限