1.分类分析

分类(Classification)指的是从数据中选出已经分好类的训练集,在该训练集上运用数据挖掘分类的技术,建立分类模型,对于没有分类的数据进行分类的分析方法。

分类问题的应用场景:分类问题是用于将事物打上一个标签,通常结果为离散值。例如判断一副图片上的动物是一只猫还是一只狗,分类通常是建立在回归之上。

本文主要讲基本的分类方法 ----- KNN最邻近分类算法 

KNN最邻近分类算法 ,简称KNN,最简单的机器学习算法之一。

  核心逻辑:在距离空间里,如果一个样本的最接近的K个邻居里,绝大多数属于某个类别,则该样本也属于这个类别。

2. KNN最邻近分类的python实现方法

最邻近分类的python实现方法

在距离空间里,如果一个样本的最接近的k个邻居里,绝大多数属于某个类别,则该样本也属于这个类别

电影分类 / 植物分类

2.1电影分类

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline
#  案例一:电影数据分类

from sklearn import neighbors  # 导入KNN分类模块
import warnings
warnings.filterwarnings('ignore')
# 不发出警告 data = pd.DataFrame({'name':['北京遇上西雅图','喜欢你','疯狂动物城','战狼2','力王','敢死队'],
'fight':[3,2,1,101,99,98],
'kiss':[104,100,81,10,5,2],
'type':['Romance','Romance','Romance','Action','Action','Action']})
print(data)
print('-------')
# 创建数据 plt.scatter(data[data['type'] == 'Romance']['fight'], data[data['type'] == 'Romance']['kiss'], color = 'r',marker = 'o',label = 'Romance')
plt.scatter(data[data['type'] == 'Action']['fight'],data[data['type'] == 'Action']['kiss'],color = 'g',marker = 'o',label = 'Action')
plt.grid()
plt.legend()

 data[data['type'] == 'Romance']['fight'] # 3 2 1
 data[data['type'] == 'Romance']['kiss'] #104 100 81

knn = neighbors.KNeighborsClassifier()   # 取得knn分类器
knn.fit(data[['fight','kiss']], data['type'])

print('预测电影类型为:', knn.predict([18, 90]))
# 加载数据,构建KNN分类模型
# 预测未知数据

plt.scatter(18,90,color = 'r',marker = 'x',label = 'Romance')
plt.ylabel('kiss')
plt.xlabel('fight')
plt.text(18,90,'《你的名字》',color = 'r')
# 绘制图表

data2 = pd.DataFrame(np.random.randn(100, 2)*50, columns = ['fight', 'kiss'])
data2['typetest'] = knn.predict(data2) plt.scatter(data[data['type'] == 'Romance']['fight'],data[data['type'] == 'Romance']['kiss'],color = 'r',marker = 'o',label = 'Romance')
plt.scatter(data[data['type'] == 'Action']['fight'],data[data['type'] == 'Action']['kiss'],color = 'g',marker = 'o',label = 'Action')
plt.grid()
plt.legend() #做一个可视化
plt.scatter(data2[data2['typetest'] == 'Romance']['fight'],data2[data2['typetest'] == 'Romance']['kiss'],color = 'r',marker = 'x',label = 'Romance')
plt.scatter(data2[data2['typetest'] == 'Action']['fight'],data2[data2['typetest'] == 'Action']['kiss'],color = 'g',marker = 'x',label = 'Action')
# plt.legend()
plt.ylabel('kiss')
plt.xlabel('fight')
# 绘制图表
data2.head()

2.2植物分类

# 案例二:植物分类

from sklearn import datasets
iris = datasets.load_iris()
print(iris.keys())
print('数据长度为:%i条' % len(iris['data']))
# 导入数据 print(iris.feature_names)
print(iris.target_names)
#print(iris.target)
print(iris.data[:5])
# 150个实例数据
# feature_names - 特征分类:萼片长度,萼片宽度,花瓣长度,花瓣宽度 → sepal length, sepal width, petal length, petal width
# 目标类别:Iris setosa, Iris versicolor, Iris virginica.
data = pd.DataFrame(iris.data, columns = iris.feature_names)
data['target'] = iris.target
iris.target
data.head()

knn = neighbors.KNeighborsClassifier()
knn.fit(iris.data, iris.target) #构建一个分类模型 prt_data = knn.predict([0.2, 0.1, 0.3, 0.4]) #array([0])
prt_data
ty = pd.DataFrame({'target':[0, 1, 2],
'target_names':iris.target_names}) iris.target df = pd.merge(data, ty, on = 'target') df.head()

knn = neighbors.KNeighborsClassifier()
# knn.fit(iris.data, iris.target) #构建一个分类模型
knn.fit(iris.data, df['target_names']) #监督学习一定要有它的特征量和目标值
prt_data = knn.predict([0.2, 0.1, 0.3, 0.4]) #做预测
prt_data

最新文章

  1. VS里面如何设置环境默认的开发语言
  2. Java - 错误: "java.lang.ArrayIndexOutOfBoundsException: length=1; index=1"
  3. JavaScript中childNodes、children、nodeValue、nodeType、parentNode、nextSibling详细讲解
  4. Jtree(节点的渲染+资源管理器)(2)
  5. 制作centos的启动盘
  6. 深入解析C语言数组和指针
  7. 来,看看MySQL 5.6, 5.7, 8.0的新特性
  8. WPF开发的界面调用C++生成的dll文件
  9. Q: Is Consul eventually or strongly consistent?
  10. 为laravel队列安装supervisor并配置
  11. Visual Studio 代码片段
  12. Kubernetes DNS 高阶指南(转发别人 解析很详细)
  13. cocos源码分析--LayerColor的绘制过程
  14. ubuntu 安装时分辨率太小 导致无法继续安装
  15. subnet partition
  16. 使用QT开发GoogleMap瓦片显示和下载工具(2)——Google地图瓦片投影和获取网址解析
  17. websocket redis实现集群即时消息聊天
  18. 关于ENABLE_BITCODE
  19. Jenkins配置有用摘抄笔记
  20. babel吐槽

热门文章

  1. wireshark找(检测)不到(捕获)网卡的解决办法
  2. linux中ping带时间及打印内容到文件
  3. Confluence 6 数据库表-内容(Content)
  4. Confluence 6 导入一个 Confluence 站点
  5. PHP 抽象类、接口,traint详解
  6. 【python】python版本升级2.6.6到2.7.3(CentOS release 6.2)
  7. Nginx详解三:Nginx基础篇之yum安装
  8. 前端生成pdf文件之pdfmake.js
  9. 备份还原数据数据库(固定IP版)
  10. 论文阅读笔记五:U-Net: Convolutional Networks for Biomedical Image Segmentation(CVPR2015)