import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction; import java.util.Arrays;
import java.util.List; /**
* distinct 算子:
* 简单去重
*
*/
public class DistinctOperator {
public static void main(String[] args) {
SparkConf conf = new SparkConf().setMaster("local").setAppName("distinct");
JavaSparkContext sc = new JavaSparkContext(conf);
List<String> list1 = Arrays.asList("w1","w2","w3","w4","w2"); JavaRDD<String> list1Rdd = sc.parallelize(list1); //此时result有3个分区
JavaRDD<String> result = list1Rdd.distinct(2); result.foreach(new VoidFunction<String>() {
@Override
public void call(String s) throws Exception {
System.err.println(s);
}
}); }
}

微信扫描下图二维码加入博主知识星球,获取更多大数据、人工智能、算法等免费学习资料哦!

最新文章

  1. 复习排序with javascript
  2. MongoDB 文档的查询和插入操作
  3. 构建高性能的ASP.NET应用程序
  4. HDU-----(4858)项目管理(模拟)
  5. Hive sql 语法解读
  6. VIM中文乱码(_vimrc配置文件备份)
  7. python路径函操作
  8. 关于JSP post请求乱码的问题
  9. 6,EasyNetQ-基于Topic的路由
  10. window10下的eclipse用java连接hadoop执行mapreduce任务
  11. http中的get和post(一)
  12. 网页Title加LOGO图标
  13. C#使用Aforge调用摄像头拍照
  14. 【C#】C#学习笔记_1
  15. 翻转单链表 leetcode Reverse Linked List
  16. Java知识锦囊
  17. 每年有20万人进军IT行业,为何还会人才短缺?
  18. OpenShift-OKD3.10基础环境部署
  19. ORA-12705 解决方法
  20. 使用redis实现【统计文章阅读量】及【最热文章】功能

热门文章

  1. Ubuntu16.04安装nginx(并启用SSL)
  2. linux开启数据库远程连接
  3. websphere部署不能发布war文件,提示“配置库中已存在应用程序
  4. Maven-指定要打包的文件
  5. android data binding jetpack V 实现recyclerview 绑定
  6. JScript 程序流程控制
  7. 六、Jmeter中自动提取Http请求参数,并put到Map,然后进行MD5加密
  8. cad二次开发中DBText对象的外框GeometricExtents有问题?
  9. StringJoiner 源码阅读
  10. MessageBox 弹框