Spark(二)算子讲解

@

一、wordcountcount

基于上次的wordcount,我们来写一个wordcountcount,来对wc程序进行第二次计数,我们来分析一下性能。

package com.littlepage.wc

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} object WordCount {
def main(args: Array[String]): Unit = {
val conf=new SparkConf().setAppName("wc").setMaster("local")
val sparkContext=new SparkContext(conf)
sparkContext.setLogLevel("error")
val fileRDD:RDD[String] = sparkContext.textFile("data/data")
val words:RDD[String] = fileRDD.flatMap(_.split(" "))
val pairWord:RDD[(String,Int)] = words.map((_,1))
val res:RDD[(String,Int)] = pairWord.reduceByKey(_+_)
println("wordcount:")
res.foreach(println)
val rev:RDD[(Int,Int)] = res.map((x)=>{(x._2,1)})
val pl:RDD[(Int,Int)] = rev.reduceByKey(_+_)
println("\nwordcountcount")
pl.foreach(println)
Thread.sleep(100000000)
}
}

通过性能图,我们可以知道:

1.Spark如果不对其结果进行存储或输出,那么Spark将不会处理map或者reduce操作

2.如果进行重复输出,共用的map或者reduce操作只执行一次

3.默认如果产生一次shuffle是去查看图表的一次拐弯,为了尽量减少性能的消耗,编写程序时应该尽量减少shuffle的次数

二、编程模型

Spark编程模型和MapReduce相比,Spark可以多个Job,多个State进行执行。

源码部分参考视频

三、RDD数据集和算子的使用

1.三个必备算子

我们在写一个Spark程序中,不可避免的算子有三个,创建算子,转换算子,收集算子。

创建算子可以创建一个RDD数据集,这个创建可以在内存中(集合容器),也可以在硬盘中(文件)获取

转换算子可以处理一个RDD数据集,即map和reduce操作,都算做转换算子。

收集算子我们在写一个RDD数据集的时候,必须使用收集算子进行收集,否则不会触发shuffle。

示例,三个算子写一个过滤数字程序。

package com.littlepage

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} object demo2 {
def main(args: Array[String]): Unit = {
val conf=new SparkConf().setAppName("demo2").setMaster("local")
val sc=new SparkContext(conf)
sc.setLogLevel("error")
val dataRDD: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,6,5,4,3,2,1))//创建算子
val filterRDD: RDD[Int] = dataRDD.filter(_>3)//转换算子
val ints:Array[Int] = filterRDD.collect()//收集算子
Thread.sleep(100000)
}
}
package com.littlepage

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} object demo2 {
def main(args: Array[String]): Unit = {
val conf=new SparkConf().setAppName("demo2").setMaster("local")
val sc=new SparkContext(conf)
sc.setLogLevel("error")
val dataRDD: RDD[Int] = sc.parallelize(List(1,2,3,4,5,6,7,6,5,4,3,2,1))//创建算子
val filterRDD: RDD[Int] = dataRDD.filter(_>3)//转换算子
val ints:Array[Int] = filterRDD.collect()//收集算子
Thread.sleep(100000)
}
}
2.常见算子(交并差笛卡尔,cogroup,join)

2.1.union算子

将两个数据集合并为一个数据集,直接合并,不会产生shuffle

object union {
def main(args: Array[String]): Unit = {
val sc=new SparkContext(new SparkConf().setMaster("local").setAppName("union"))
sc.setLogLevel("error")
val rdd1:RDD[Int] = sc.parallelize(List(1,2,3,4,6,7))
val rdd2:RDD[Int] = sc.parallelize(List(2,3,4,5))
val uniondata = rdd1.union(rdd2)
uniondata.foreach(print)
Thread.sleep(100000)
}
}

2.2.intersection算子

将2个数据集取交集,产生一个shuffle

val interdata:RDD[Int] = rdd1.intersection(rdd2)

2.3.substract算子

将2个数据集取差集,产生一个shuffle

val subdata:RDD[Int] = rdd1.substract(rdd2)

2.4.cartesian算子

将2个数据集取笛卡尔积,不产生shuffle

val cartesiandata:RDD[Int] = rdd1.cartesian(rdd2)

2.5.cogroup算子

两个分组进行,key作为结果的key,value集合进行一个二元祖,包含两个分区的元素,产生一个shuffle。

val rdd1:RDD[(String,Int)] = sc.parallelize(List(
("zhangsan",11),
("zhangsan",12),
("lisi",13),
("wangwu",14)
));
val rdd2:RDD[(String,Int)] = sc.parallelize(List(
("zhangsan",21),
("zhangsan",22),
("lisi",23),
("zhaoliu",28)
))
val cogroupdata:RDD[(String,(Iterable[Int],Iterable[Int]))] = rdd1.cogroup(rdd2)

6.join,leftOuterJoin,rightOuterJoin,fullOuterJoin算子

val joindata:RDD[(String,(Int,Int))] = rdd1.join(rdd2)
val leftdata:RDD[(String,(Int,Option[Int]))] = rdd1.leftOuterJoin(rdd2)
val rightdata:RDD[(String,(Option[Int],Int))] = rdd2.rightOuterJoin(rdd2)
val fulldata:RDD[(String,(Option[Int],Option[Int]))] = rdd1.fullOuterJoin(rdd2)
3.排序和聚合计算

3.1.swap算子

将一个k-v数据集的key和value交换,用法

data.map(_.swap)

3.2.sort算子

sort算子可以将按照key进行全排序

data.sortByKey()

3.3.take算子

获得数据的前n个,n为一个整型

data.take(n)

3.4.distinct去重

去除key相同的

val keys:RDD[(String,String) = map.distinct()

最新文章

  1. Oracle库Delete删除千万以上普通堆表数据的方法
  2. [No000080]右键解锁增强Chrome插件开发,破除防复制
  3. 利用substring()方法,把一个表的不同分级所对应的字段名取出来。
  4. EF框架step by step(7)—Code First DataAnnotations(2)
  5. init进程解析rc文件的相关函数分析
  6. day-3
  7. Codeforces 56D Changing a String
  8. java下拉框,滚动条
  9. Paint获取Text的宽和高的数据
  10. 翻译:MariaDB wait/nowait
  11. 随心测试_数据库_003 <数据库存储结构>
  12. Macbook pro从购买服务器到搭建服务器环境(2)
  13. 一个简单的例子了解states
  14. mycat数据中间件、nginx
  15. OSI七层协议模型、TCP/IP四层模型和五层协议体系结构之间的关系
  16. 如何让你的数据有null
  17. 类中的函数带有self,不带self的区别
  18. ubuntu16.04之sudo问题
  19. loadrunner中pacing的设置
  20. Eclipse中如何安装和使用GrepCode插件 (转)

热门文章

  1. python多进程实例详解
  2. 获取网卡名称及其IP地址的方法
  3. tomcat 是如何做到不同webapp 类隔离的
  4. Hanoi II——汉诺塔步数求解进阶问题
  5. 最新 荔枝java校招面经 (含整理过的面试题大全)
  6. POJ2449 【第k短路/A*】
  7. [转帖]【JVM 知识体系框架总结】
  8. sqlite 版本更新维护, 表结构判断, 更新
  9. dubbo探究
  10. (十二)Activitivi5之流程控制网关:排他