不多说,直接上干货!

  特征选择里,常见的有:VectorSlicer(向量选择) RFormula(R模型公式) ChiSqSelector(卡方特征选择)。

  

  ChiSqSelector用于使用卡方检验来选择特征(降维)。即来特征选择

  我这里,采取手动创建。(但是,这仅仅是为了初学者。我不建议,最好用maven)

完整代码

ChiSqSelector .scala
package zhouls.bigdata.DataFeatureSelection

import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.ml.feature.ChiSqSelector//导入mi里的特征选择里的ChiSqSelector算法
import org.apache.spark.mllib.linalg.Vectors//特征向量 /**
* By zhouls
*/
object ChiSqSelector extends App { val conf = new SparkConf().setMaster("local").setAppName("ChiSqSelector")
val sc = new SparkContext(conf) val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._ //构造数据集
val data = Seq(
(, Vectors.dense(0.0, 0.0, 18.0, 1.0), 1.0),
(, Vectors.dense(0.0, 1.0, 12.0, 0.0), 0.0),
(, Vectors.dense(1.0, 0.0, 15.0, 0.1), 0.0)
)
val df = sc.parallelize(data).toDF("id", "features", "clicked")//将构造的数据集,转成DF,即DataFrame
df.select("id", "features","clicked").show() //使用卡方检验,将原始特征向量(特征数为4)降维(特征数为3)
val selector = new ChiSqSelector().setNumTopFeatures().setFeaturesCol("features").setLabelCol("clicked").setOutputCol("selectedFeatures") val result = selector.fit(df).transform(df)
result.show() }

  由

  变成

最新文章

  1. This build of Sublime Text 2 has expired
  2. VUE2.0不可忽视的很多变化
  3. QT 数据库编程二
  4. MongoDb学习1
  5. 蒟蒻修养之cf橙名计划2
  6. 给Apache增加SSI支持(shtml的奥秘)
  7. Oracle管道函数(Pipelined Table Function)介绍
  8. leetcode算法题3:分组,让每个组的最小者,相加之后和最大。想知道桶排序是怎么样的吗?
  9. Caused by: java.lang.ClassNotFoundException: org.jboss.logging.BasicLogger
  10. ubuntu安装pycharm桌面快捷方式
  11. Centos7下安装PHP5.5,5.6,7.0----(转载记录一下)
  12. MySQL--字符集参数
  13. MVC应用程序实现上传文件(续)
  14. 排查CentOS7.0的联网情况
  15. day06--元组、字典、集合与关系运算
  16. oracle下导出某用户所有表的方法
  17. 转:JavaBean 、 Serverlet 总结
  18. 第二章:走进shell
  19. 兼容的动态加载JS【原】
  20. Python读取 csv文件中文乱码处理

热门文章

  1. 单字节的FIFO缓存(30天自制操作系统--读书笔记)
  2. swt_table 回车可编辑Esc取消
  3. linux子系统的初始化_subsys_initcall()
  4. SDUT oj 选拔赛1 迷之好奇
  5. POJ2728 Desert King —— 最优比率生成树 二分法
  6. Centos6.8防火墙设置
  7. 更改NavigationView侧滑菜单文字颜色
  8. html5--6-59 其他常用CSS属性
  9. jsp重写url
  10. windows下安装composer流程