package Spark_MLlib

import org.apache.spark.ml.feature.StringIndexer
import org.apache.spark.sql.SparkSession object 特征变换_StringIndexer {
val spark = SparkSession.builder().master("local[2]").appName("标签和索引的转换").getOrCreate()
import spark.implicits._
def main(args: Array[String]): Unit = {
val df=spark.createDataFrame(Seq(
(,"log"),
(,"text"),
(,"text"),
(,"soyo"),
(,"text"),
(,"log"),
(,"log"),
(,"log")
)).toDF("id","type")
val indexer=new StringIndexer().setInputCol("type").setOutputCol("type_index")
val model=indexer.fit(df)
model.labels.foreach(println) //类型的频率顺序(高-->低)
val index=model.transform(df) //索引先排频率高的即log为0
index.show(false) }
}

结果:

log
text
soyo
+---+----+----------+
|id |type|type_index|
+---+----+----------+
|0  |log |0.0       |
|1  |text|1.0       |
|2  |text|1.0       |
|3  |soyo|2.0       |
|4  |text|1.0       |
|5  |log |0.0       |
|6  |log |0.0       |
|7  |log |0.0       |
+---+----+----------+

最新文章

  1. Jquery初学
  2. MATLAB中fft函数的正确使用方法
  3. typeahead.js 使用记录
  4. SQL注入的原理以及危害
  5. ng-init,ng-controller,ng-model
  6. nc命令学习
  7. iOS学习之UITabBarController
  8. <转>一道面试题比较synchronized和读写锁
  9. HDU 1227 Fast Food (DP)
  10. 让ubuntu使用root帐号并让winscp以root身份登录
  11. Maven之debug技巧
  12. 修改Android中strings.xml文件, 动态改变数据
  13. nyist 500 一字棋
  14. OCP-1Z0-051-题目解析-第5题
  15. PHP中使用正则表达式详解 preg_match() preg_replace() preg_mat
  16. 设计模式之建造者模式Builder(创建型)
  17. 关于apidoc文档生成不了的一个原因
  18. linkin大话数据结构--Collection和Iterator
  19. Python_性能测试
  20. "大概能给你的磕盐增加一点幸福感✈"-[那些年的矫情]

热门文章

  1. 第一节:重写(new)、覆写(overwrite)、和重载(overload)
  2. bazel和TensorFlow安装
  3. Linux 源码
  4. web项目的创建
  5. VScode输出中文乱码的解决方法------测试过可以用
  6. [fw]Best Practices for Exception Handling
  7. 最短网络 Agri-Net
  8. js有块级作用域么?
  9. CSS filter 模拟黑洞照片效果
  10. Android: 帮助找出内存泄漏的工具