Linear Basis Function Models

线性模型的一个关键属性是它是参数的一个线性函数,形式如下:

w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫basis function,记作φ(x),于是线性模型可以表示成:

w0看着难受,定义一个函数φ0(x) = 1, 模型的形式再一次简化成:

以上就是线性模型的一般形式。basis function有很多选择,例如Gaussian、sigmoid、tanh (tanh(x) = 2 * sigmoid(a) − 1)。

Maximum likelihood and least squares

训练线性模型的时候,假设cost function为sum-of-squares error function,那么minimize cost function 和 maximize likelihood function是等价的。

另外一个发现就是,w0最终解出来为target values的均值 和 各个特征的basis function values均值的加权和 的差,如下:

Regularized least squares

一般的正则化形式如下:

q = 1, 为lasso(least absolute shrinkage and selection operator) 正则化,其特点是,当λ足够大的时候,某些参数会趋向0,看下图。

q = 2, 二次正则化,使得一些参数足够小。

Bias-Variance trade-off

假设y(x, D)代表基于数据集D训练出来的regression function, h(x)代表数据集D中,给定x条件下target value的期望

squared loss function可以写成:

后一项与y(x)无关,考虑前一项积分里面的部分:

{y(x; D) − h(x)}2 =  {y(x; D) − ED[y(x; D)] + ED[y(x; D)] − h(x)}2

          = {y(x; D) − ED[y(x; D)]}2 + {ED[y(x; D)] − h(x)}2
            +2{y(x; D) − ED[y(x; D)]}{ED[y(x; D)] − h(x)}

这样积分取期望后为:

前一项为bias,后一项为variance。

于是loss function的总体希望就为,(bias)2 + variance + noise

于是就产生了bias-variance trade-off问题, flexible models低bias,高variance;rigid models 高bias,低variance。

在实际应用中,为了观察bias和variance,计算如下:

其中:

y(l)(x)是prediction function。

Bayesian Linear Regression(该段摘自Jian Xiao(iamxiaojian@gmail.com)的笔记Notes on Pattern Recognition and Machine Learning (Bishop))

Bayesian 方法能够避免 over-fitting 的原因是: Marginalizing over the model parameters instead of making point estimates of their values.

假设有多个 model;观察到的 data set 是 D。 Bayesian 的 model comparison 方法是,比较各个模型的后验概率,即:

先验概率 p(Mi) allows us to express a preference for different model。可以假设每个模型的先验概率相等,那么剩下要比较的关键是: p(D|Mi) ——model evidence 或 marginal likelihood。

Model averaging V.S. model selection

Model averaging:把多个模型,用各自模型的后验概率加权平均,得到 predictive distribution为

Model selection: 只选择一个模型,即其中后验概率最大的模型。这是一种 approximation to model averaging。以上分析可以看出,各个 model 的后验概率是关键,而计算后验概率的关键又是 model evidence。

从 sampling 的角度看, Mi 相当于 hyper-parameter,而 w 则是 parameter。 一个 model 不同于另一个 model,是因为 hyper-parameter。

The Evidence Approximation

full Bayesian需要marginalize with respect to hyper-parameters as well as parameters,例如hyperparameter是alpha和beta,w是parameter,那么predictive distribution为:

就比较难,这里就考虑一种approximation,给hyperparameters设置一个特定的数值,这个数值由maximizing the marginal likelihood function 来确定。这个方法叫empirical Bayes、 type 2 maximum likelihood、generalized maximum likelihood、evidence approximation(in machine learning)

Previous Chapter | Next Chapter

最新文章

  1. Java对象的深拷贝和浅拷贝、集合的交集并集
  2. nios II--实验7——数码管IP软件部分
  3. ecshop团购显示“库存不足”
  4. linux安装软件通常会做哪些事
  5. [BZOJ3671][UOJ#6][NOI2014]随机数生成器
  6. Segment Tree with Lazy 分类: ACM TYPE 2014-08-29 11:28 134人阅读 评论(0) 收藏
  7. Codevs 1173 最优贸易 2009年NOIP全国联赛提高组
  8. mac上的键盘生活——quicksliver
  9. HDU 4604 Deque 最长子序列
  10. Java:Object类的equals()方法 如何编写一个完美的equals()方法
  11. TFboy养成记 tensor shape到底怎么说
  12. MVC思想概述
  13. Java实现简易的文本编辑器
  14. C#动态调用泛型类、泛型方法
  15. Excel VBA ——字典实用技巧
  16. Database in BioInformation
  17. python之WSGI与Guincorn
  18. 【题解】Luogu P2572 [SCOI2010]序列操作
  19. WmiPrvSe.exe 的 cpu 占用
  20. Identifier:GUID (全局唯一标识符)

热门文章

  1. java导出word(带图片)
  2. 实践:Backbone作前端,Django+Tastypie作后端的简单Web在线聊天室
  3. Qt quick 编程
  4. 【Oracle】oracle中rownum的说明及使用技巧
  5. Linux UBI子系统设计初探
  6. WPF 四种样式
  7. ubuntu快捷复制粘贴
  8. jQuery触发a标签点击事件-为什么不跳转
  9. innodb Lock wait timeout exceeded;
  10. PHP 使用 debug_print_backtrace() 或 debug_backtrace() 打印栈轨迹