Spark aggregateByKey函数

aggregateByKey与aggregate类似，都是进行两次聚合，不同的是后者只对分区有效，前者对分区中key进一步细分

def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U: ClassTag](zeroValue: U)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

//数据被分为两个分区

//分区1：(1,3),(1,2)

//分区2：(1, 4),(2,3),(2,4)

scala> var data = sc.parallelize(List((,),(,),(, ),(,),(,)),)

data: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[] at parallelize at <console>:

//每个分区中按key聚合

scala> def InnerCom(a:Int, b:Int) : Int ={

     | println("InnerCom: " + a + " ：" + b)

     | math.max(a,b)

     | }

InnerCom: (a: Int, b: Int)Int

//分区间的聚合

scala> def PartitionCom(a:Int, b:Int) : Int ={

     | println("PartitionCom: " + a + " ：" + b)

     | a + b

     | }

PartitionCom: (a: Int, b: Int)Int

//第一个分区中只有一个key，两个元素

//聚合后结果为(1,3)

//第二个分区中两个key，1、2

//聚合后结果为(1,4)、(2,3)

//二次聚合后结果为(1,7)(2,4)

scala> data.aggregateByKey()(InnerCom, PartitionCom).collect

InnerCom:  ：

InnerCom:  ：

InnerCom:  ：

InnerCom:  ：

InnerCom:  ：

PartitionCom:  ：

res: Array[(Int, Int)] = Array((,), (,))

巴特西

Spark aggregateByKey函数

最新文章

热门文章