一、逻辑回归

概率分类模型

选取样本:对逻辑回归这种概率分类模型来说维持原来样本真实的分布还是有必要的,但是对一些树模型来说可以通过采样来平衡样本。

原来评分卡建模还有个拒绝推断,就是为了还原人群真实的坏账率。

如果样本量充足,基本就不用进行样本均衡。(本分的项目坏账1.5%没有进行处理)

充足与否主要看坏样本数,不同公司标准不一样,一般定1000,或者2000条。

Train/Test/OOT样本

样本均衡这块,如果欠采样减少了总体样本数,不如对坏样本过采样。欠采样容易丢失信息。

“训练数据只是为了找到数据背后的真实模型”这个其实就是传统统计学模型(参数模型)做的假设,模型就是为了还原生成X Y这个联合概率分布。现在很多的机器学习模型(非参模型)并不对原始分布做假设,所以很多条件很宽松。

我比较倾向于机器学习这套方法,模型不要做太多假设,衡量模型性能我们就看几个指标的高低,能抓住耗子就是好猫。

对于判断模型是否过拟合:
看train和test,如果差别不大那还好。

看train、test是否同分布,如果过拟合那差别还蛮大的。

二、数据划分

train、validation、test

out of sample、in sample

数据划分

最新文章

  1. 2013 duilib入门简明教程 -- 部分bug (11)
  2. 从基础学起----xuld版高手成长手记[1]
  3. ssh生成key不交互
  4. Struts2中过滤器和拦截器的区别
  5. Ajax本地跨域问题
  6. 洛谷 P1118 数字三角形游戏 Label:dfs
  7. 【阿里云产品公测】OTS使用之简单线上产品实践基于PythonSDK
  8. 使用switch case语句来显示月份的对应天数
  9. 给大家推荐几款OSX上非常好工具(针对程序员)
  10. iscsi模型相关点
  11. 【Python网络编程】多线程聊天软件程序
  12. NET 人民币大写
  13. 我的Python成长之路---第七天---Python基础(21)---2016年2月27日(晴)
  14. “AIR SDK 0.0: AIR SDK location “...\devsdks\AIRSDK\Win” does not exist.”问题解决~
  15. Python爬虫——爬豆瓣登录页面
  16. [BZOJ4736]温暖会指引我们前行
  17. android studio 报红解决
  18. ios开启双重认证之填坑式教学
  19. Perl的浅拷贝和深度拷贝
  20. gitlab 500 服务器错误 重启解决了

热门文章

  1. 算概率(dp,数论)
  2. 201612-1 中间数 Java
  3. 201771010123汪慧和《面向对象程序设计Java》第十一周实验总结
  4. UML的用例图
  5. LNMP安装问题
  6. 33. docker swarm 集群服务通信 之 RoutingMesh - Ingress 网络
  7. Java机器学习软件介绍
  8. Charles 安装配置
  9. Python笔记_第三篇_面向对象_9.Python中的"get"和"set"方法(@property和@.setter)
  10. urlopen error [errno 10060]的解决思路