第四部分:

    1.生成学习法 generate learning algorithm

    2.高斯判别分析 Gaussian Discriminant Analysis

    3.朴素贝叶斯 Navie Bayes

    4.拉普拉斯平滑 Navie Bayes


一、生成学习法generate learning algorithm:

    二类分类问题,不管是感知器算法还是逻辑斯蒂回归算法,都是在解空间中寻找一条直线从而把两种类别的样例分开,对于新的样例只要判断在直线的哪一侧即可;这种直接对问题求解的方法可以成为判别学习方法(discriminative learning algorithm)。而生成学习算法则是对两个类别分别进行建模,用新的样例去匹配两个模型,匹配度较高的作为新样例的类别,比如良性肿瘤与恶性肿瘤的分类,首先对两个类别分别建模,比如分别计算两类肿瘤是否扩散的概率,计算肿瘤大小大于某个值的概率等等;再比如狗与大象的分类,分别对狗与大象建模,比如计算体重大于某个值的概率,鼻子长度大于某个值的概率等等。

比如说良性肿瘤和恶性肿瘤的问题,对良性肿瘤建立model1(y=0),对恶性肿瘤建立model2(y=1),p(x|y=0)表示是良性肿瘤的概率,p(x|y=1)表示是恶性肿瘤的概率.

根据贝叶斯公式(Bayes rule)推导出y在给定x的概率为:

    注释如下:

二、高斯判别分析 Gaussian Discriminant Analysis:

    

    先看概念:高维高斯分布的理解

  1. 如何描述问题?

  1.0 问题的假设是什么?

    这个模型对于数据有非常强的假设:

    它假设变量是连续的,并且每一个特征都符合正态分布(即高斯分布)

    即输入特征满足多元正态分布(后面来讲)

    对应一个二元分类问题 y = h(x), 需要满足下面的分布:

  1.1 如何用模型描述问题? 

    由于有了上面的假设,问题可以描述为:

    当需要分类是,通过贝叶斯公式计算其属于某一类的概率:

  1.2 如何定义求解目标?

    算法的求解目标为使其联合概率最大化,即

  2. 如何求解问题?

    对似然函数求导得到

    算法表述在图上可以为

  什么是多元正态分布(The Multivariate Normal Distribution)?

    多元正态分布描述的是 n 维随机变量的分布情况,这里的μ变成了向量,  σ也变成了矩阵Σ。写作

最新文章

  1. HDFS源码分析:NameNode相关的数据结构
  2. Git恢复reset --hard丢失的文件
  3. BZOJ3585: mex
  4. Java根据年份算出所属的生肖。
  5. javascript中with语句应用
  6. ajax跨域请求学习笔记
  7. Integer自动装箱拆箱bug,创建对象在-128到127
  8. Android Stuido 提高开发效率的插件
  9. 高性能、高可用、高扩展ERP系统架构设计
  10. Nginx限流办法
  11. [SDOI 2013]方程
  12. Spring ioc 详解
  13. Linux编程 15 文件权限(用户管理 useradd,userdel,usermod,passwd,chpasswd,chsh, chfn,chage)
  14. oracle 导入execl
  15. appendChild()方法遇到的问题
  16. jsp下载word
  17. css实现三角形及应用示例
  18. 洛谷P2444 病毒 [POI2000] AC自动机
  19. JVM-Java8的MetaSpace
  20. 根据URL地址获取域名

热门文章

  1. JAVAFX 2.0 javascript中调用java代码
  2. Xilinx FPGA开发环境vivado使用流程
  3. sublime text2建成C语言(C++)编译环境
  4. git 克隆指定分支
  5. docker-compose网络设置之networks
  6. MQTT 3.1.1,值得升级的6个新特性
  7. 黄聪:bootstrap的模态框modal插件在苹果iOS Safari下光标偏离问题解决方案
  8. pm2 常用命令
  9. PHP $a='abcdef';请取出$a的值并打印第一个字母
  10. Linux网路查看工具