java实现spark常用算子之distinct
2024-09-03 08:09:04
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction; import java.util.Arrays;
import java.util.List; /**
* distinct 算子:
* 简单去重
*
*/
public class DistinctOperator {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setMaster("local").setAppName("distinct");
JavaSparkContext sc = new JavaSparkContext(conf);
List<String> list1 = Arrays.asList("w1","w2","w3","w4","w2"); JavaRDD<String> list1Rdd = sc.parallelize(list1); //此时result有3个分区
JavaRDD<String> result = list1Rdd.distinct(2); result.foreach(new VoidFunction<String>() {
@Override
public void call(String s) throws Exception {
System.err.println(s);
}
}); }
}
微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦!
最新文章
- 复习排序with javascript
- MongoDB 文档的查询和插入操作
- 构建高性能的ASP.NET应用程序
- HDU-----(4858)项目管理(模拟)
- Hive sql 语法解读
- VIM中文乱码(_vimrc配置文件备份)
- python路径函操作
- 关于JSP post请求乱码的问题
- 6,EasyNetQ-基于Topic的路由
- window10下的eclipse用java连接hadoop执行mapreduce任务
- http中的get和post(一)
- 网页Title加LOGO图标
- C#使用Aforge调用摄像头拍照
- 【C#】C#学习笔记_1
- 翻转单链表 leetcode Reverse Linked List
- Java知识锦囊
- 每年有20万人进军IT行业,为何还会人才短缺?
- OpenShift-OKD3.10基础环境部署
- ORA-12705 解决方法
- 使用redis实现【统计文章阅读量】及【最热文章】功能
热门文章
- Ubuntu16.04安装nginx(并启用SSL)
- linux开启数据库远程连接
- websphere部署不能发布war文件,提示“配置库中已存在应用程序
- Maven-指定要打包的文件
- android data binding jetpack V 实现recyclerview 绑定
- JScript 程序流程控制
- 六、Jmeter中自动提取Http请求参数,并put到Map,然后进行MD5加密
- cad二次开发中DBText对象的外框GeometricExtents有问题?
- StringJoiner 源码阅读
- MessageBox 弹框