不多说,直接上干货!

RFormula算法介绍:

RFormula通过R模型公式来选择列。支持R操作中的部分操作,包括‘~’, ‘.’, ‘:’, ‘+’以及‘-‘,基本操作如下:

1、 ~分隔目标和对象

2、+合并对象,“+ 0”意味着删除空格

3、 :交互(数值相乘,类别二值化)

4、. 除了目标外的全部列

假设a和b为两列:

  1、y ~ a + b表示模型y ~ w0 + w1 * a +w2 * b其中w0为截距,w1和w2为相关系数。

  2、 y ~a + b + a:b – 1表示模型y ~ w1* a + w2 * b + w3 * a * b,其中w1,w2,w3是相关系数。

  RFormula产生一个向量特征列以及一个double或者字符串标签列。如果类别列是字符串类型,它将通过StringIndexer转换为double类型。如果标签列不存在,则输出中将通过规定的响应变量创造一个标签列。

示例:

假设我们有一个DataFrame含有id,country, hour和clicked四列:

id | country |hour | clicked

---|---------|------|---------

7 | "US"    | 18  | 1.0

8 | "CA"    | 12  | 0.0

9 | "NZ"    | 15  | 0.0

如果我们使用RFormula公式clicked ~ country+ hour,则表明我们希望基于country和hour预测clicked,通过转换我们可以得到如下DataFrame:

id | country |hour | clicked | features         | label

---|---------|------|---------|------------------|-------

7 | "US"    | 18  | 1.0     | [0.0, 0.0, 18.0] | 1.0

8 | "CA"    | 12  | 0.0     | [0.0, 1.0, 12.0] | 0.0

9 | "NZ"    | 15  | 0.0     | [1.0, 0.0, 15.0] | 0.0

  具体编程,见

Spark MLlib编程API入门系列之特征选择之R模型公式(RFormula)

最新文章

  1. Webform:Application、ViewState对象的用法
  2. 【Java EE 学习 78 上】【数据采集系统第十天】【Service使用Spring缓存模块】
  3. Hadoop生态系统如何选择搭建
  4. Javascript学习总结
  5. ArcGIS API for Silverlight 当DataGrid选中项时,地图聚焦弹出窗口,并可以播放音频文件
  6. oracle更新统计信息以及解锁统计信息
  7. 构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(48)-工作流设计-起草新申请
  8. c++ 容器、继承层次、句柄类
  9. Matlab中调用第三方Java代码
  10. VS2012添加对DirectX SDK中需要文件的引用
  11. BootstrapTable(附源码) Bootstrap结合BootstrapTable的使用,分为两种模试显示列表。
  12. 初识JavaScript闭包
  13. npm私有仓库 配置verdaccio在docker环境
  14. 软件工程(FZU2015) 赛季得分榜,第一回合
  15. ES6躬行记(2)——扩展运算符和剩余参数
  16. Linux安装RabbitMq-Centos7版本
  17. bzoj5281/luogu4377 Talent Show (01分数规划+背包dp)
  18. windows2012系统IE浏览器无法打开加载flashplayer内容
  19. Delphi XE3写DLL,用Delphi7调用,报错!
  20. PAT-1010 Radix

热门文章

  1. MySQL 权限生效
  2. iOS开发UIScrollView常见属性和方法
  3. css3中animation的应用
  4. POJ1077 Eight —— 双向BFS
  5. vscode——配置终端集成bash和cmd
  6. os、sys和shutil模块
  7. pyspark 日期格式
  8. Linux 命令行命令及参数辨异
  9. SPOJ:Dandiya Night and Violence(Bitset优化)
  10. 棋盘问题(dp)