wordcount是spark入门级的demo,不难但是很有趣。接下来我用命令行、scala、Java和python这三种语言来实现单词统计。

一、使用命令行实现单词的统计

    1.首先touch一个a.txt文本文件

    

    2.加载文本:产生弹性分布式数据集,用sc.textFile()加载文本文件到内存中去,加载到内存之后,整个RDD就是一个数组,就以换行符来做分隔

val rdd1 = sc.textFile("/home/centos/a.txt")

    3.对2中产生的数组按空格进行切割,切开之后每个元素就变成了一个数组,[hello,world1]

val rdd2=rdd1.flatMap(line=>line.split(" "))

    4.对3中产生的结果进行key,value键值对额转换

val rdd3=rdd2.map(wor=>(word,))

    5.对4中的结果进行聚合

val rdd4=rdd3.reduceByKey(_ + _)

    5.查看结果

    6.一步操作

    7.实现单词过滤

对于spark-shell这种环境一般只用于测试和调试

最新文章

  1. 从 AJAX 到 JSONP的基础学习
  2. socket详解
  3. 2287: 【POJ Challenge】消失之物
  4. OPENSSL 学习整理-介绍
  5. vim 学习日志(3):跳到行尾、行首、文件尾、文件首、加密
  6. 关于Windows下如何查看端口占用和杀掉进程
  7. python 中 time 模块 格式化 format
  8. C++之拷贝构造函数
  9. 字符串(后缀自动机):NOI 2016 优秀的拆分
  10. oracle add_months函数的用法详解
  11. 关于ASP.Net的一些概念 转载
  12. WebBrowser与IE的关系,如何设置WebBrowser工作在IE9模式下?
  13. Cousera课程Learning How to Learn学习报告
  14. Java 集成 速卖通开发.
  15. Android初级教程XUtils实现“断点续传”下载
  16. vue2.0的初始化
  17. Swoole PHP windows composer
  18. javascript的常用事件
  19. Db2性能:系统CPU高问题分析的一些思路
  20. Mac下搭建lamp

热门文章

  1. 【leetcode】299. Bulls and Cows
  2. 第七周作业—N42-虚怀若谷
  3. Cookie 跨域???
  4. SonarQube规则之漏洞类型
  5. AC自动机及其模板
  6. 倍增求LCA算法详解
  7. iOS开发自定义字体之静态字体
  8. 笨办法学Python(learn python the hard way)--练习程序41
  9. leetcode-mid-Linked list-94 Binary Tree Inorder Traversal
  10. iOS即时通讯之CocoaAsyncSocket源码解析一