join就表示内连接

对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)

根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。

示例

val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5))
val pairRdd1 = sc.parallelize(arr1)
val arr2 = Array(("spark","fast"))
val pairRdd2 = sc.parallelize(arr2)
pairRdd1.join(pairRdd2).collect.foreach(println)

结果

(spark,(1,fast))
(spark,(2,fast))

注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。

最新文章

  1. 挑子学习笔记:BIRCH层次聚类
  2. C#写爬虫,版本V2.1
  3. hihoCoder #1379 Emulator
  4. 数据库管理员<三>
  5. Maven使用笔记(六)使用Maven进行多模块拆分
  6. BED format
  7. Java中transient有何作用?
  8. jQuery插件面向对象开发
  9. mysql copy表或表数据常用的语句整理汇总
  10. bzoj 1196: [HNOI2006]公路修建问题 二分+并查集
  11. GLEW_ERROR_NO_GL_VERSION的解决方法
  12. Linux 系统调用sysconf
  13. 深入理解 sudo 与 su 之间的区别【转】
  14. 1.揭开消息中间件RabbitMQ的神秘面纱
  15. Nutch1.2 的安装与使用
  16. 两台Mysql数据库数据同步实现
  17. 编译poco-1.7.8
  18. MD5 SHA1 哈希 签名 碰撞 MD
  19. Kafka Zookeeper 基本命令示例
  20. 《从零开始学Swift》学习笔记(Day 11)——数据类型那些事儿?

热门文章

  1. Python生成器是什么
  2. 【我的Android进阶之旅】如何隐藏Android中EditText控件的默认下划线
  3. java.text.SimpleDateFormat使用介绍
  4. kubernetes --> kube-dns 安装
  5. python之路 RabbitMQ、SQLAlchemy
  6. cdojQ - 昊昊爱运动 II
  7. hive--udf函数(开发-4种加载方式)
  8. Spring Web MVC 随笔
  9. Spring 之混合配置
  10. maven中使用dom4j解析、生成XML的简易方法