spark 模型选择与超参调优

机器学习可以简单的归纳为 通过数据训练y = f(x) 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。

如何选择最优的模型,就是本篇的主要内容:

  • 模型验证的方法
  • 超参数的选择
  • 评估函数的选择

模型验证的方法

在《统计学习方法》这本书中,曾经讲过模型验证的方法有三种,分别是简单的交叉验证S折交叉验证留一交叉验证

简单的交叉验证

即把全部数据按照比例分割成两部分,分别是训练集和测试集。在训练集训练模型,在测试集测试效果,最终选择一个代价比较小的结果。一般是0.75。

S折交叉验证

设置S为一个数,一般是3或者10居多。如果是3,那么前2份作为训练集,最后一份作为测试集。

留一交叉验证

如果S的个数正好是样本的容量,就是留一交叉验证。

PS:

训练集是用于训练模型,测试集适用于判断此次训练效果。

在Spark MLLib中,为我们提供了两种验证方法,分别是

  • Cross-Validation : S折交叉验证
  • Train-ValidationSplit:简单交叉验证

超参数的选择

在Spark MLLib中,超参数可以通过上面的验证方法,作为参数传进去:

// 定义超参数集合
val paramGrid = new ParamGridBuilder()
.addGrid(hashingTF.numFeatures, Array(10, 100, 1000))
.addGrid(lr.regParam, Array(0.1, 0.01))
.build()
// 定义验证器
val cv = new CrossValidator()
.setEstimator(pipeline)
.setEvaluator(new BinaryClassificationEvaluator)
.setEstimatorParamMaps(paramGrid)
.setNumFolds(2) // Use 3+ in practice

其中hashingTF给设置了3个参数、lr给了2个参数,如果正常我们想要验证这6个参数的组合,应该需要验证6次。但是在Spark中,基于Validator可以一次性验证出来,并自动选择最后代价最小的那个。

PS

上面S折交叉验证中S的参数为2,因此内部只有一个训练集;如果是3,那么最终运行的训练次数将会是 (3*2)*2 = 12次。

评估函数的确定

Spark提供了三种评估函数:

  • RegressionEvaluator用于回归预测的问题
  • BinaryClassificationEvaluator用于二分类问题
  • MulticlassClassificationEvaluator用于多分类问题

详细的代码,可以参考:

http://spark.apache.org/docs/latest/ml-tuning.html

最新文章

  1. Lua和C++交互详细总结
  2. yield
  3. linux命令 wget
  4. ASP.NET MVC URL重写与优化(1)-使用Global路由表定制URL
  5. 从容而优雅(leisurely and elegant)
  6. HDU 1078 FatMouse and Cheese(记忆化搜索)
  7. Discuz 3.X 门户文章插入图片自动添加 alt 标签
  8. mongoDB初接触
  9. C 文件直接包含
  10. 在HTML页面中获取当前项目根路径的方法
  11. Effective Java 第三版——29. 优先考虑泛型
  12. 程序bug致损失400亿,判程序员坐牢? 搞笑我们是认真的
  13. rand ----MATLAB (经典)
  14. python 类的魔法函数 内置函数 类方法 静态方法 抽象类
  15. bzoj 3674: 可持久化并查集加强版 (启发式合并+主席树)
  16. 2016ICPC-大连 To begin or not to begin (简单思维)
  17. android 安装调试第三方应用失败
  18. PRM路径规划算法
  19. ajax请求下载Execl表
  20. 使用mongodump及mongorestore备份及恢复数据

热门文章

  1. 如何运用kali-xplico网络取证分析?点开看看吧
  2. JDK 安装目录中 native2ascii.exe 命令详解
  3. Java 实现字符串的加密与解密
  4. struts2框架学习笔记2:配置详解
  5. consul初步学习
  6. spring boot log4j2配置
  7. 读取.Properties文件以及Spring注解读取文件内容
  8. Django--中间件相关
  9. 源码编译安装lnmp环境
  10. 关于ASP.Net Core Web及API身份认证的解决方案