1 感知机模型
1.1 模型定义
2 感知机学习策略
2.1 数据的线性可分性
2.2 学习策略
3 学习算法
3.1 算法原始形式
3.2 收敛性
3 学习算法的对偶形式

1 感知机模型

感知机perceptron是二类分类问题的线性分类模型，输入为实例的特征向量，输出为实例的类别（+1，-1）。感知机旨在求出训练数据进行线性划分的分离超平面（separating hyperplane），基于损失函数，利用梯度下降法对损失函数进行极小化，求得感知机模型，从而对新实例进行分类。它分为原始和对偶形式。1957年Rossenblatt提出。

1.1 模型定义

从输入空间到输出空间的映射（函数）：f(x)=sign(w·x+b)
其中，w是weight，x输入向量，b偏置bias，sign是符号函数，即

假设空间是定义在所有特征空间上的函数（线性分类模型）的集合{f|f(x)=w·x+b}
感知机解释：
线性方程w·x+b=0对应于特征空间Rn一个超平面，w是超平面的法向量，b是超平面的截距，超平面S将实例分为正负两类。

2 感知机学习策略

2.1 数据的线性可分性

如果对于数据集T，存在一个超平面能够完全正确的将其划分到超平面的两侧称为数据集线性可分linear separable

2.2 学习策略

假设数据线性可分，为了求出超平面，需要求出w和b，需要一个学习策略（如何找到超平面的计算方法），即定义损失函数，并将损失函数最小化。
定义损失函数：误分类点总数到超平面S的总距离。
输入空间Rn任一点到平面的距离是：点到平面的距离

误分类点满足：

因此误分类点到平面的距离是：

假设总共有M个误分类点，则总距离为：

不考虑常数项||w||,就是感知机的损失函数，即

在误分类时，L为w，b的连续可导函数。正确分类时L为0。

3 学习算法

主要就是对上述损失函数进行求解全局最小（优）值（极小值）

3.1 算法原始形式

具体采用随机梯度下降法（stochastic gradient descent SGD）：首先任意选取一个超平面w0，b0，然后梯度下降法不断地极小化目标表函数，极小化过程不是一次使M中所有误分类点梯度下降，而是一次随机选取一个误分类点使其梯度下降。
梯度为：

具体算法过程：

3.2 收敛性

首先将b并入w得到w hat，将x添加一维1，形式将被简化。于是得到：

迭代次数k有一个上限，说明原始算法是可收敛的，前提是数据线性可分。

3 学习算法的对偶形式

说明一点，感知机的学习算法是支持向量机学习算法的基础，这里原始形式和对偶形式与之对应。

Gram 矩阵：

MATLAB示例：

 x1=[3,3]',

 x2=[4,3]',

 x3=[1,1]',

 G=[x1'*x1,x1'*x2,x1'*x3;

     x2'*x1,x2'*x2,x2'*x3;

     x3'*x1,x3'*x2,x3'*x3]

巴特西

class-感知机Perception