KNN简介

KNN(k-NearestNeighbor)算法的思想总结一下:就是在数据和标签已知的情况下,输入测试数据,将测试数据的特征与训练集中对应的特征进行相互比较,找到训练集中与之最为相似的前K个数据,则该测试数据对应的类别就是K个数据中出现次数最多的那个分类,其算法的描述为:

1.计算测试数据与各个训练数据之间的距离,选用欧式距离,计算每个点到数据集(训练集)的所有距离,

distance=((x1-x2)**2+(y1-y2)**2)**0.5

2.按照距离的递增关系进行排序,使用argsort(distances.argsort())函数,返回数据集从小到大排列的数据下表,
3.选取距离最小的K个点,与输入k值有关,使用for函数遍历k
4.确定前K个点所在类别的出现频率,class_count[label]=class_count.get(label,0)+1

5.返回前K个点中出现频率最高的类别作为测试数据的预测分类,sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True),sorted_class[0][0]。

代码如下:我们把收入工资和年龄作为数据集,进行判别某个年龄和对应收入,有没有资格谈恋爱!

 #!/usr/bin/python
# -*- coding:<utf-8> - import numpy as np
import operator def createDateset():
group=np.array([[5000,25],[2200,32],[7000,32],[26000,29],[20000,35]])
labels=('没有资格谈恋爱','有资格谈恋爱','没有资格谈恋爱','有资格谈恋爱','有资格谈恋爱')
return group,labels def classfy(input,dataSet,labels,k): datasize=dataSet.shape[0] #计算数组集的行数,numpy中shape[0]返回数组的行数,shape[1]返回列数
diffdata=np.tile(input,(datasize,1))-dataSet#np.tile(input,(datasize,1)),对测试数据进行横向复制,使其拥有与其数据集一样的维度
squrdata=diffdata**2#计算相减后的平方,欧式距离,distance=((x1-x2)**2+(y1-y2)**2)**0.5
sum_squr_data=squrdata.sum(axis=1)
distances=sum_squr_data**0#.欧式距离:distance=((x1-x2)**2+(y1-y2)**2)**0.5
print('测试的数据距离数据集的距离分别是:',distances) sorted_distance=distances.argsort()
print('距离从小到大的下标为:',sorted_distance) class_count={}
for i in range (k):
label=labels[sorted_distance[i]]
class_count[label]=class_count.get(label,0)+1#a[b]=a.get(b,0)+1,对字典a赋值,当在字典a中找到
#key为b的键值的时候,取1,找不到的时候取0并加1,即等号坐标为key,右边为value
print('class_count:',class_count)
sorted_class=sorted(class_count.items(),key=operator.itemgetter(1),reverse=True)##key=operator.itemgetter(1)根据字典的值进行排序
#key=operator.itemgetter(0)根据字典的键进行排序
print('sorted_class:',sorted_class)
return sorted_class[0][0] if __name__ == '__main__':
group,labels=createDateset()
test=(6000,36)
test_class=classfy(test,group,labels,5)
print(test_class)
#运行结果如下:
测试的数据距离数据集的距离分别是: [1 1 1 1 1]
距离从小到大的下标为: [0 1 2 3 4]
class_count: {'没有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 1, '有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 1}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 2}
class_count: {'没有资格谈恋爱': 2, '有资格谈恋爱': 3}
sorted_class: [('有资格谈恋爱', 3), ('没有资格谈恋爱', 2)]
有资格谈恋爱 Process finished with exit code 0

KNN算法的优点:

1.KNN理论简单,容易实现,简单,有效。

2、KNN是一种在线技术,新数据可以直接加入数据集而不必进行重新训练

KNN算法缺点:

1.KNN算法是懒散学习方法(lazy learning,基本上不学习),一些积极学习的算法要快很多。

2.对于样本容量大的数据集计算量比较大。

3.样本不平衡时,预测偏差比较大。如:某一类的样本比较少,而其它类样本比较多。

4.KNN每一次分类都会重新进行一次全局运算。

5.k值大小的选择。

最新文章

  1. WIN7下查看CPU核心数
  2. CentOS 7下MySQL服务启动失败的解决思路
  3. jenkins自动化构建iOS应用配置过程中遇到的问题
  4. 实际项目中的一个angularjs 应用
  5. SQL ROW_NUMBER()实现取组内最新(最大)的数据
  6. BZOJ 1030 【JSOI2007】 文本生成器
  7. iOS模拟器多个虚拟机怎么处理
  8. iOS开发数据库篇—FMDB简单介绍
  9. c++学生成绩管理系统
  10. Java设计模式---装饰模式
  11. 实战ajax
  12. android greenDao SQLite数据库操作使用的工具
  13. Xtext什么
  14. scrapy bug
  15. python成长之路【第十八篇】:python模块介绍、模块导入和重载
  16. 2017ACM/ICPC广西邀请赛-重现赛 1004.Covering
  17. memcache的基本操作
  18. web前端bug积累
  19. vue-cli3安装创建项目以及目录结构
  20. asp grid 增加和删除行数据

热门文章

  1. 基于tomcat插件的maven多模块工程热部署(附插件源码)
  2. go标准库的学习-reflect
  3. Vue2 第二天学习
  4. 原生js 数组的迭代的方法
  5. Echo团队Alpha冲刺随笔 - 第一天
  6. A类——Dima and a Bad XOR
  7. ubuntu环境下安装 eclipse
  8. 解决linux下无线网卡被物理禁用问题
  9. 异步方法(promise版)出错自调用
  10. 移动电力猫HG260GT pon实现路由拨号