在boosting系列算法中,Adaboost是最著名的算法之一。Adaboost既可以用作分类,也可以用作回归。

1. boosting算法基本原理

集成学习原理中,boosting系列算法的思想:

Boosting算法首先对训练集用初始权重训练一个弱学习器1,根据弱学习1的学习误差率更新训练样本点的权重,使学习误差率高的点权重变高,从而在弱学习器2得到更多重视。然后训练弱学习器2。如此重复进行,直到弱学习器到达到指定数目T,最后将T个弱学习通过集合策略整合成强学习器。

2. Adaboost算法原理

这里讲解Adaboost算法中如何解决下面4个问题:

  1. 如何计算学习误差率e
  2. 如何得到弱学习器权重系数α
  3. 如何更新样本权重D
  4. 结合策略

假设训练样本是

训练集第k个弱学习器的输出权重为

Adaboost分类问题

多元分类是二元分类的推广,假设我们是二元分类,输出为 {-1, 1},

则第k个弱分类器 Gk(x) 在训练集上的加权误差率为

对于二分类问题,第k个弱分类器 Gk(x) 的权重系数为

从上式看出,分类误差率 ek 越大,对应的弱分类器权重系数 αk 越小。即误差率小的弱分类器权重系数越大。

更新样本权重D。假设第 k 个弱分类器的样本集权重系数为 ,对应的第 k+1 个弱分类器的样本集权重系数为

这里 Zk 是规范化因子

从 wk+1,i 公式看出,如果第 i 个分类样本错误,则 ,导致样本权重在第 k+1 个弱分类器中增大,如果分类正确,则权重在第 k+1 个弱分类器中减少。

最新文章

  1. 3.Code-First 约定(EF Code-First系列)
  2. Node.js 安装与配置
  3. 解决redhat 没注册的情况下yum无法使用的问题
  4. 奇怪吸引子---YuWang
  5. Spring声明式事务配置管理方法
  6. scala学习笔记(1)
  7. div 自适应高度 自动填充剩余高度
  8. Zabbix 教程
  9. Matlab命令系列之目录操作
  10. jboss服务器配置多实例
  11. php校验
  12. Silverlight信息加密 - 通过Rfc2898DeriveBytes类使用基于HMACSHA1的伪随机数生成器实现PBKDF2
  13. nginx负载 发向代理配置文件参考
  14. 拿来之笔 希望铭记 笔记 出处 http://www.jianshu.com/p/acb8885283dc
  15. UIDynamic物理仿真
  16. Es6 类的关键 super、static、constructor、new.target
  17. S2_SQL_第四章
  18. wtforms组件使用实例及源码解析
  19. 在centos7下用http搭建配置svn服务
  20. python 小问题收集

热门文章

  1. C语言的宏macro的使用
  2. CAN学习方法(知乎)
  3. Linux工具之vmstat
  4. 使用tinyproxy进行ip代理
  5. 自动化测试 selenium 测试软件安装
  6. maven-将本地jar包添加到本地仓库
  7. bom操作,事件与jquery
  8. Python-multiprocessing-Pool模块
  9. BZOJ 2243: [SDOI2011]染色 (树剖+线段树)
  10. java+根据多个url批量下载文件