现在 机器学习 这么火,小编也忍不住想学习一把。注意,小编是零基础哦。

所以,第一步,推荐买一本机器学习的书,我选的是Peter harrigton 的《机器学习实战》。这本书是基于python 2.7的,但是我安装的是python 3.6.2.

所以很关键的是,你必须得有一定的python基础。这里我推荐runoob的py3教程,通俗易懂。http://www.runoob.com/python3/python3-tutorial.html

注意:python2和python3是不兼容的

python是面向对象的,面向对象是python的精髓。

————————————————————严肃的分割线......——————————————————————————————

         言归正传,首先,我们要安装一些包,比如numpy和matplotlib。小编推荐用anaconda,这是一个开源的Python发行版本,其包含了conda、Python等180多个科学包及其依赖项。下载地址https://www.anaconda.com/download/。这就免去安装各种包的烦恼。

  界面如下:里面有一个spyder,这是一款很好用的IDE

左边是文本编辑区,右下角是命令行。右上角是变量区,很方便啊,有木有!

下面就是KNN算法的讲解了。

————————————————————————分割线————————————————————————————————————————————————————

        K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 KNN方法虽然从原理上也依赖于极限定理,但在类别决策时,只与极少量的相邻样本有关。由于KNN方法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别的,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。
KNN算法不仅可以用于分类,还可以用于回归。通过找出一个样本的k个最近邻居,将这些邻居的属性的平均值赋给该样本,就可以得到该样本的属性。更有用的方法是将不同距离的邻居对该样本产生的影响给予不同的权值(weight),如权值与距离成反比。
  
实例:手写识别>
      目录下解压digits.zip,得到训练样集本和测试样集本。kNN.py是核心程序。随便点开一个0_0.txt文件,可以看到
00000000000001111000000000000000
00000000000011111110000000000000
00000000001111111111000000000000
00000001111111111111100000000000
00000001111111011111100000000000
00000011111110000011110000000000
00000011111110000000111000000000
00000011111110000000111100000000
00000011111110000000011100000000
00000011111110000000011100000000
00000011111100000000011110000000
00000011111100000000001110000000
00000011111100000000001110000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000001111110000000000111000000
00000011111110000000001111000000
00000011110110000000001111000000
00000011110000000000011110000000
00000001111000000000001111000000
00000001111000000000011111000000
00000001111000000000111110000000
00000001111000000001111100000000
00000000111000000111111000000000
00000000111100011111110000000000
00000000111111111111110000000000
00000000011111111111110000000000
00000000011111111111100000000000
00000000001111111110000000000000
00000000000111110000000000000000

这就是经过数字图像处理的手写字体了,格式是32x32。

  核心函数如下:
#inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到训练样本集的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了dataSetSize个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号 即距离
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #创建一个字典classCount 选择距离最小的k个点,
for i in range(k): #k次遍历
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) #原书是iteritems() py3改为items()
return sortedClassCount[0][0]
#计算完所有点后,数据按从小到大排序,然后确定前k个距离最小元素所在的主要分类,输入k总是正整数,最后,将classCount字典分解为元组列表,然后此处的排序为逆序,
返回发生频率最高的元素标签。

  我们要知道的是在python中。classfiy0就是一个函数,而inX, dataSet, labels, k是输入参数,其中k就是KNN算法的K。

  shape是numpy库中的函数。.shape用于计算array各维度的长度,在python中都是从0开始的。

  tile 也是 numpy中的函数,它可以在行和列上重复一个矩阵。

aaarticlea/png;base64," alt="" width="803" height="312" />

那  tile(inX, (dataSetSize,1))的意思就是,让inX矩阵,在列重复1次。在行方向上重复dataSetSize次了。diffMat得到了目标与训练数值之间的差值。

 而 sum(axis=1) 为什么这样写呢,因为python和c不一样。 小编开始也不懂然后 在命令行输入help(sum) 出来很多有用的帮助。自己亲手敲了几行就懂了。

 axis=None, will sum all of the elements of the input array.  If
axis is negative it counts from the last to the first axis.
 
b = ([[ 0,  5,  6,  4, 66,  0,  5,  6,  4, 66],
       [ 0,  5,  6,  4, 66,  0,  5,  6,  4, 66]])
a = [0, 5, 6, 4, 66]
 
sum(b,axis=0)
Out[87]: array([  0,  10,  12,   8, 132,   0,  10,  12,   8, 132])
sum(b,axis=1)
Out[88]: array([162, 162])

 写到这想必大家也懂了。如果想搞机器学习,还需要了解很多python数学函数啊。

下面是get() 它是dictionary(字典)的一个函数。

所以classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1 的意思就是查找classcount字典中和voteIlabel相同的元素,默认返回0,因为是从0开始的,所以要加1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True) key指定一个元素的迭代方法进行排序classCount。并且是倒序。
下面是变量表:最后输出结果是0
 

 '''
Created on Sep 16, 2010
kNN: k Nearest Neighbors Input: inX: vector to compare to existing dataset (1xN)
dataSet: size m data set of known vectors (NxM)
labels: data set labels (1xM vector)
k: number of neighbors to use for comparison (should be an odd number) Output: the most popular class label
@author: pbharrin
'''
from numpy import *
import operator #运算符模块
from os import listdir #inX:用于分类的输入向量。即将对其进行分类。
#dataSet:训练样本集
#labels:标签向量
def classify0(inX, dataSet, labels, k):
dataSetSize = dataSet.shape[0]#得到数组的行数,即有几个训练数据
diffMat = tile(inX, (dataSetSize,1)) - dataSet #tile:numpy中的函数。tile将原来的一个数组,扩充成了4个一样的数组。diffMat得到了目标与训练数值之间的差值。
sqDiffMat = diffMat**2#差值的平方
sqDistances = sqDiffMat.sum(axis=1)#对应列相乘,即距离和
distances = sqDistances**0.5 #开根号
sortedDistIndicies = distances.argsort()#升序排列
classCount={} #选择距离最小的k个点
for i in range(k):
voteIlabel = labels[sortedDistIndicies[i]]
classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
return sortedClassCount[0][0] def createDataSet():
group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
labels = ['A','A','B','B']
return group, labels def file2matrix(filename):
fr = open(filename)
numberOfLines = len(fr.readlines()) #get the number of lines in the file
returnMat = zeros((numberOfLines,3)) #prepare matrix to return
classLabelVector = [] #prepare labels return
fr = open(filename)
index = 0
for line in fr.readlines():
line = line.strip() #Python strip() 方法用于移除字符串头尾指定的字符(默认为空格)。
listFromLine = line.split('\t') #将line按'\t'进行分割
returnMat[index,:] = listFromLine[0:3]
classLabelVector.append(int(listFromLine[-1])) #倒数第一个元素
index += 1
return returnMat,classLabelVector
#归一化特征值
#使得所有参量在0到1之间
def autoNorm(dataSet):
minVals = dataSet.min(0)
maxVals = dataSet.max(0)
ranges = maxVals - minVals
normDataSet = zeros(shape(dataSet))
m = dataSet.shape[0] #返回矩阵第二维长度(列数)
normDataSet = dataSet - tile(minVals, (m,1))
normDataSet = normDataSet/tile(ranges, (m,1)) #element wise divide
return normDataSet, ranges, minVals def datingClassTest():
hoRatio = 0.50 #hold out 10%
datingDataMat,datingLabels = file2matrix('datingTestSet2.txt') #load data setfrom file
normMat, ranges, minVals = autoNorm(datingDataMat)
m = normMat.shape[0] #m:目录中有多少文件#shape函数是numpy.core.fromnumeric中的函数,它的功能是查看矩阵或者数组的维数。
numTestVecs = int(m*hoRatio)
errorCount = 0.0
for i in range(numTestVecs):
classifierResult = classify0(normMat[i,:],normMat[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
#inX:用于分类的输入向量。即将对其进行分类。normMat[i,:],
#dataSet:训练样本集.normMat[numTestVecs:m,:]
#labels:标签向量.datingLabels[numTestVecs:m]
#k:3
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, datingLabels[i]))
if (classifierResult != datingLabels[i]): errorCount += 1.0
print ( "the total error rate is: %f" % (errorCount/float(numTestVecs)))
print (errorCount)
'''
我们将一个32x32二进制图像矩阵转换为1x1024的向量
'''
def img2vector(filename): #图片转化为向量
returnVect = zeros((1,1024))
fr = open(filename)
for i in range(32):
lineStr = fr.readline()
for j in range(32):
returnVect[0,32*i+j] = int(lineStr[j])
return returnVect
#安照先训练再测试的模式
def handwritingClassTest():
hwLabels = []
trainingFileList = listdir('trainingDigits') #load the training set listdir法用于返回指定的文件夹包含的文件或文件夹的名字的列表
m = len(trainingFileList) #获取文件长度
trainingMat = zeros((m,1024))
for i in range(m):
fileNameStr = trainingFileList[i] #从文件名解析分类数字
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
hwLabels.append(classNumStr)
trainingMat[i,:] = img2vector('trainingDigits/%s' % fileNameStr) #将文件名
testFileList = listdir('testDigits') #iterate through the test set
errorCount = 0.0
mTest = len(testFileList)
for i in range(mTest):
fileNameStr = testFileList[i]
fileStr = fileNameStr.split('.')[0] #take off .txt
classNumStr = int(fileStr.split('_')[0])
vectorUnderTest = img2vector('testDigits/%s' % fileNameStr)
classifierResult = classify0(vectorUnderTest, trainingMat, hwLabels, 4)
print ("the classifier came back with: %d, the real answer is: %d" % (classifierResult, classNumStr))
if (classifierResult != classNumStr): errorCount += 1.0
print ("\nthe total number of errors is: %d" % errorCount)
print ("\nthe total error rate is: %f" % (errorCount/float(mTest)))
# main part
handwritingClassTest();

k临近算法手写识别,错误率为1.2%,改变k的值,修改函数handwriting - classTest 随机选取的训练样本,改变训练样本的个数,都会对k临近算法错误率产生影响。

  代码下载地址    http://www.ituring.com.cn/book/download/0019ab9d-0fda-4c17-941b-afe639fcccac

最新文章

  1. fluent批量处理——模型参数的设置
  2. unity 角色旋转
  3. JavaScript面试题
  4. 匿名对象和object的转换
  5. Umbraco列表分页
  6. php生成员工编号,产品编号
  7. CentOS 6.8yum源的配置
  8. OpenGL: 环境配置和图元的绘制
  9. qmake 提示 Failure to open file:****
  10. Vue 爬坑之路(六)—— 使用 Vuex + axios 发送请求
  11. Leetcode_144_Binary Tree Preorder Traversal
  12. AES在线加密解密-附AES128,192,256,CBC,CFB,ECB,OFB,PCBC各种加密解密源码
  13. 若干排序算法的Python实现方法及原理
  14. Fedora 23 U盘启动出现“Failed to load ldlinux.c32”解决
  15. BZOJ5104 Fib数列(二次剩余+BSGS)
  16. 使用Redis进行简单的数据缓存
  17. yum的repo文件详解、以及epel简介、yum源的更换
  18. Kadane算法
  19. 借鉴+总结!! mysql 客户端命令行下 查询数据并生成文件导出
  20. 通过天天模拟器加burpsuite抓取手机app流量

热门文章

  1. IDEA翻译插件推荐Translation 安装和使用以及快捷键绑定
  2. P1361 小M的作物
  3. scrapy_cookie禁用_延迟下载_自定义爬虫setting
  4. linkin大话面向对象--包和导入
  5. selenium+python自动化测试系列(二):AutoIt工具实现本地文件上传
  6. 关于Mysql模糊查询的优化-全文检索和Like的使用
  7. 学会用git真的很重要
  8. awkOFS问题
  9. spring jdbc踩坑日记,new JdbcTemplate 为null导致UserDao一直为null
  10. 解决asp.net MVC中 当前上下文中不存在名称“model” 的问题