参见原书 1.1-1.4节

一、惩罚线性回归模型

基本特性:

1.训练时间快,使用训练好的模型进行预测的时间也快
2.应用于高速交易、互联网广告的植入等
3.解决回归、分类问题

最重要的特性:
能明确指出,哪个变量对预测结果最重要

普通最小二乘法(ordinary least squares,OLS)->惩罚回归方法
(OLS主要问题:过拟合)

惩罚回归方法:使自由度与数据规模、问题的复杂度相匹配

核心概念:
1.特征工程/特征提取
选择哪些变量用于对结果的预测

2.自由度
统计学名词,当以样本的统计量估计总体的参数时,样本中独立或能自由变化的自变量的个数
如,一条直线的自由度为2,即需要2个独立的参数才能确定唯一的一条直线
表示方式:与Y轴的交点与斜率

利用2点确定自由度为2的一条直线,可信度并不高

二、集成方法
构建多个不同的预测模型(基学习器),然后将其输出做某种组合作为最终的输出

某些机器学习算法输出结果不稳定->集成方法

通常,将二元决策树作为基学习器
如,x<5?(y=2):(y=1)
Q:判断值5如何产生?输出值y=1,y=2如何产生?

A:基于输入数据的二元决策树的训练

关键在于:如何产生大量的独立预测模型
一种方法 投票(自举集成方法boosting aggregating):先对训练数据随机取样,基于随机数据子集进行训练

确定哪些特征作为预测模型的输入?
试错法,多次迭代

早期阶段,特征过程阶段:
利用惩罚线性回归模型训练,提供基本参考:哪些变量是重要的

核心概念:
1.基学习器
单个预测模型

2.问题的复杂度
数据科学家的任务,如何平衡问题的复杂度、预测模型的复杂度和数据集规模,以获得一个最佳的可部署模型

数据集的规模通常是自由度的倍数关系
因为数据集的规模固定,需要调整模型的自由度

最新文章

  1. QT数据库连接的几个重要函数的使用及注意事项(原创)
  2. Spring:ApplicationContext (2)
  3. 诺基亚N900使用技巧
  4. 慕课网-安卓工程师初养成-2-9 Java中的自动类型转换
  5. #define使用方法
  6. MSSQL查询所有数据库表,指定数据库的字段、索引
  7. linux系统如何限制其他用户登录
  8. 2018-03-03-解决win下凭据删除不干净而无法登录共项目录的问题
  9. Git使用(一、TortoiseGit和Gitlab在Windows下的项目库创建和上传)
  10. JAVA 多线程(3)
  11. dubbo @Activate 注解使用和实现解析
  12. Centos 6.5 本地局域网基于HTTP搭建YUM
  13. 谈谈javascript数组排序方法sort()的使用,重点介绍参数使用及内部机制?
  14. [转]linux shell 多线程实现
  15. vs2015新功能和其他
  16. 转: IOS程序内发短信 MFMessageComposeViewController
  17. Oracle PLSQL Demo - 20.弱类型REF游标[没有指定查询类型,也不指定返回类型]
  18. HDU 5974 A Simple Math Problem(数论+结论)
  19. ZOJ-3261 Connections in Galaxy War---离线操作+逆序并查集
  20. nginx php fastcgi安装

热门文章

  1. asp.net core如何自定义端口/修改默认端口
  2. 我的运维之旅-查找文本的linux命令
  3. awk打印第n个参数到最后一个技巧/将n行组成一列
  4. SQL语句-delete语句
  5. jenkins构建一个maven项目[五]
  6. 安装supervisor
  7. 前端开发-DOM
  8. bzoj 3812: 主旋律 [容斥原理 状压DP]
  9. BZOJ 2738: 矩阵乘法 [整体二分]
  10. 一个巨low的“2048”