一 简介 DBSCAN:Density-based spatial clustering of applications with noise is a data clustering algorithm proposed by Martin Ester, Hans-Peter Kriegel, Jörg Sander and Xiaowei Xu in 1996.It is a density-based clustering algorithm: given a set of points
一个简单的例子!环境:CentOS6.5Hadoop集群.Hive.R.RHive,具体安装及调试方法见博客内文档. 1.分析题目--有一个用户点击数据样本(husercollect)--按用户访问的时间(时)统计--要求:分析时间和点击次数的聚类情况 2.数据准备 --创建临时表 DROP TABLE if exists tmp.t2_collect; CREATE TABLE tmp.t2_collect( h int, cnt int ) COMMENT '用户点击数据临时表'; --插入