机器学习概念之特征选择(Feature selection)之RFormula算法介绍
不多说,直接上干货!
RFormula算法介绍:
RFormula通过R模型公式来选择列。支持R操作中的部分操作,包括‘~’, ‘.’, ‘:’, ‘+’以及‘-‘,基本操作如下:
1、 ~分隔目标和对象
2、+合并对象,“+ 0”意味着删除空格
3、 :交互(数值相乘,类别二值化)
4、. 除了目标外的全部列
假设a和b为两列:
1、y ~ a + b表示模型y ~ w0 + w1 * a +w2 * b其中w0为截距,w1和w2为相关系数。
2、 y ~a + b + a:b – 1表示模型y ~ w1* a + w2 * b + w3 * a * b,其中w1,w2,w3是相关系数。
RFormula产生一个向量特征列以及一个double或者字符串标签列。如果类别列是字符串类型,它将通过StringIndexer转换为double类型。如果标签列不存在,则输出中将通过规定的响应变量创造一个标签列。
示例:
假设我们有一个DataFrame含有id,country, hour和clicked四列:
id | country |hour | clicked
---|---------|------|---------
7 | "US" | 18 | 1.0
8 | "CA" | 12 | 0.0
9 | "NZ" | 15 | 0.0
如果我们使用RFormula公式clicked ~ country+ hour,则表明我们希望基于country和hour预测clicked,通过转换我们可以得到如下DataFrame:
id | country |hour | clicked | features | label
---|---------|------|---------|------------------|-------
7 | "US" | 18 | 1.0 | [0.0, 0.0, 18.0] | 1.0
8 | "CA" | 12 | 0.0 | [0.0, 1.0, 12.0] | 0.0
9 | "NZ" | 15 | 0.0 | [1.0, 0.0, 15.0] | 0.0
具体编程,见
Spark MLlib编程API入门系列之特征选择之R模型公式(RFormula)
最新文章
- Webform:Application、ViewState对象的用法
- 【Java EE 学习 78 上】【数据采集系统第十天】【Service使用Spring缓存模块】
- Hadoop生态系统如何选择搭建
- Javascript学习总结
- ArcGIS API for Silverlight 当DataGrid选中项时,地图聚焦弹出窗口,并可以播放音频文件
- oracle更新统计信息以及解锁统计信息
- 构建ASP.NET MVC4+EF5+EasyUI+Unity2.x注入的后台管理系统(48)-工作流设计-起草新申请
- c++ 容器、继承层次、句柄类
- Matlab中调用第三方Java代码
- VS2012添加对DirectX SDK中需要文件的引用
- BootstrapTable(附源码) Bootstrap结合BootstrapTable的使用,分为两种模试显示列表。
- 初识JavaScript闭包
- npm私有仓库 配置verdaccio在docker环境
- 软件工程(FZU2015) 赛季得分榜,第一回合
- ES6躬行记(2)——扩展运算符和剩余参数
- Linux安装RabbitMq-Centos7版本
- bzoj5281/luogu4377 Talent Show (01分数规划+背包dp)
- windows2012系统IE浏览器无法打开加载flashplayer内容
- Delphi XE3写DLL,用Delphi7调用,报错!
- PAT-1010 Radix