5.机器学习——DBSCAN聚类算法
2024-10-13 22:18:46
1.优缺点
优点:
(1)聚类速度快且能够有效处理噪声点和发现任意形状的空间聚类;
(2)与K-MEANS比较起来,不需要输入要划分的聚类个数;
(3)聚类簇的形状没有偏倚;
(4)可以在需要时输入过滤噪声的参数。
缺点:
(1)当数据量增大时,要求较大的内存支持I/O消耗也很大;
(2)当空间聚类的密度不均匀、聚类间距差相差很大时,聚类质量较差,因为这种情况下参数MinPts和Eps选取困难。
(3)算法聚类效果依赖与距离公式选取,实际应用中常用欧式距离,对于高维数据,存在“维数灾难”。
2.原理
DBSCAN参数
Eps——距离阈值,该聚类算法中把距离当做密度表达,距离如何计算也很重要。
MinPts——形成一个核心点所需要最小的直接可达点数,例如改参数设置为5,Eps设置为2,那么一个核心点(包含自己)形成的条件是该核心店距离阈值2以内至少有5个点。
待聚类点分为三类:
- 直接可达点 核心点距离阈值内的点成为直接可达点
- 可达点 属于不同核心点的直接的可达点通过核心点组成的路径(相邻核心点之间在各自距离阈值内)相连,那么这些直接可达点被称为可达点
- 局外点 既不是核心点也不是直接可达点也不是可达点被称为局外点,也可叫做噪声点
3.聚类
同一组直接可达点与可达点形成一个类簇,局外点形成噪声点
最新文章
- cookie的session_id解释
- My97DatePickerBeta 日历插件
- mysql日志与备份恢复
- float浮动深入理解
- 本地电脑localhost指向127.0.0.1的配置
- entOS查看系统信息-CentOS查看命令
- 解决方案:安装wordpress出现500 Internal Server Error
- require 书写约定
- 转:jQuery常用插件
- python实现某目录下将多个文件夹内的文件复制到一个文件夹中
- 韩顺平Linux学习笔记
- 【新特性】JDK11
- 博客维护停止,需要的伙伴们移步http://blog.csdn.net/panhouye
- php简单使用shmop函数创建共享内存减少服务器负载
- 用DDE控制Word
- Android中的安全与访问权限控制
- NC入门笔记
- 【内核】linux内核启动流程详细分析【转】
- SQLAlchemy-方言(Dialects)
- 一站式学习Wireshark(七):Statistics统计工具功能详解与应用
热门文章
- 厉害—Ansible管理windows集群
- 带着新人学springboot的应用04(springboot+mybatis+redis 完)
- SpringCloud Ribbon的分析
- MongoDB的安全写入GetLastError
- DocX开源WORD操作组件的学习系列一
- ES6躬行记(13)——类型化数组
- 关于利用maven搭建ssm的博客,我们一起来探讨下问的最多的问题
- 痞子衡嵌入式:第一本Git命令教程(7.1)- 清理之缓存(stash)
- JavaScript 中,定义函数时用 var foo = function () {} 和 function foo() {}有什么区别?
- C# 判断用户是否对路径拥有访问权限