Spark算子 - reduce

2024-10-12 03:56:36

释义

reduce将partition内所有记录最终计算成1个记录，结果类型与reduce 时数据类型一致

方法签名如下：

def reduce(f: (T, T) => T): T = withScope {

    ...

}

f: 每个partition内，每每两条记录进行归并计算。输入类型为U跟U，输出为U，即输入类型与输出类型一致

案例

计算数组总和

object TestReduce {

  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setAppName("TestReduce").setMaster("local[1]")

    val sc: SparkContext = new SparkContext(conf)

    val data = Array(1, 99, 2, 3)

    val result: Int = sc.parallelize(data).reduce(_ + _)

    println(result)

  }

}

输出

解释

RDD内所有记录进行两两计算，最终生成1个结果

最新文章

热门文章