【spark】常用转换操作：join

join就表示内连接。

对于内链接，对于给定的两个输入数据集(k，v1)和(k，v2)

根据相同的k进行连接，最终得到(k，(v1，v2))的数据集。

示例

val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5))

val pairRdd1 = sc.parallelize(arr1)

val arr2 = Array(("spark","fast"))

val pairRdd2 = sc.parallelize(arr2)

pairRdd1.join(pairRdd2).collect.foreach(println)

结果

(spark,(1,fast))

(spark,(2,fast))

注意，join是内连接，连接的结果只有两个数据集相同做了连接的部分，没进行连接的部分全部pass掉了。

巴特西

【spark】常用转换操作：join

最新文章

热门文章