【spark】常用转换操作:join
2024-08-30 01:55:30
join就表示内连接。
对于内链接,对于给定的两个输入数据集(k,v1)和(k,v2)
根据相同的k进行连接,最终得到(k,(v1,v2))的数据集。
示例
val arr1 = Array(("spark",1),("spark",2),("hadoop",2),("hadoop",5))
val pairRdd1 = sc.parallelize(arr1)
val arr2 = Array(("spark","fast"))
val pairRdd2 = sc.parallelize(arr2)
pairRdd1.join(pairRdd2).collect.foreach(println)
结果
(spark,(1,fast))
(spark,(2,fast))
注意,join是内连接,连接的结果只有两个数据集相同做了连接的部分,没进行连接的部分全部pass掉了。
最新文章
- 挑子学习笔记:BIRCH层次聚类
- C#写爬虫,版本V2.1
- hihoCoder #1379 Emulator
- 数据库管理员<;三>;
- Maven使用笔记(六)使用Maven进行多模块拆分
- BED format
- Java中transient有何作用?
- jQuery插件面向对象开发
- mysql copy表或表数据常用的语句整理汇总
- bzoj 1196: [HNOI2006]公路修建问题 二分+并查集
- GLEW_ERROR_NO_GL_VERSION的解决方法
- Linux 系统调用sysconf
- 深入理解 sudo 与 su 之间的区别【转】
- 1.揭开消息中间件RabbitMQ的神秘面纱
- Nutch1.2 的安装与使用
- 两台Mysql数据库数据同步实现
- 编译poco-1.7.8
- MD5 SHA1 哈希 签名 碰撞 MD
- Kafka Zookeeper 基本命令示例
- 《从零开始学Swift》学习笔记(Day 11)——数据类型那些事儿?