一、词频统计

A. 分步骤实现

1.准备文件

(1)下载小说或长篇新闻稿

(2)上传到hdfs上

2.读文件创建RDD

3.分词

4.

 ·排除大小写lower(),map()

 ·标点符号re.split(pattern,str),flatMap(),

 ·停用词,可网盘下载stopwords.txt,filter(),

对比一下

 ·长度小于2的词filter()

5.统计词频

6.按词频排序

7.输出到文件

8.查看结果

B. 一句话实现:文件入文件出

C. 和作业2的“二、Python编程练习:英文文本的词频统计 ”进行比较,理解Spark编程的特点。

二、求Top值

网盘下载payment.txt文件,通过RDD操作实现选出最大支付额的用户。

1.丢弃不合规范的行:

·空行

·少数据项

·缺失数据

2、按支付金额排序

3、取出Top3

最新文章

  1. [Erlang 0104] 当Erlang遇到Solr
  2. java8中的map和reduce
  3. Hybrid框架UI重构之路:四、分而治之
  4. Leetcode Perfect Square
  5. GCD工作单元
  6. System.Threading.Timer使用心得
  7. linux 安装phpMyAdmin
  8. socket 网摘
  9. gradle下载(转)
  10. 伪异步IO理解
  11. SQLServer 存储过程嵌套事务处理
  12. 解题报告8VC Venture Cup 2017 - Elimination Round
  13. 转:Web安全与Rational AppScan入门
  14. python基础-列表(7)
  15. 二十五、Linux 进程与信号---exec函数
  16. 用python在后端将数据写入到数据库并读取
  17. 51nod1158 最大子矩形 单调栈应用
  18. (整理)MySQL_REHL6.5 MySQL5.5 中文支持问题
  19. 【AtCoder010】A - Addition(奇偶)
  20. MySQL_help语句(不定时更新)

热门文章

  1. android软件简约记账app开发day02-收入支出明细页面绘制
  2. Rust如何开发eBPF应用(一)?
  3. Python中的Super详解
  4. 【第五课】VIM编辑器(学习笔记)
  5. 百万数据 mysql count(*)优化
  6. linux篇-linux下ffmpeg安装
  7. linux篇-linux下源码安装nginx
  8. Element UI DatePicker 时间跨度限制在同一个月内
  9. 抽象数据类型(ADT)
  10. [gym102978C] Count Min Ratio