一、词频统计:

1.读文本文件生成RDD lines

2.将一行一行的文本分割成单词 words flatmap()

3.全部转换为小写 lower()

4.去掉长度小于3的单词 filter()

5.去掉停用词

6.转换成键值对 map()

7.统计词频 reduceByKey()

二、学生课程分数 groupByKey()

-- 按课程汇总全总学生和分数

1. 分解出字段 map()

2. 生成键值对 map()

3. 按键分组

4. 输出汇总结果

三、学生课程分数 reduceByKey()

-- 每门课程的选修人数

-- 每个学生的选修课程数

最新文章

  1. 这里有个坑---entity为null的问题
  2. UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 47: invalid continuation byte
  3. WPF_X命名空间
  4. predis如何实现phpredis的pconnect方法
  5. The xor-longest Path
  6. htt p第一章概述
  7. [ExtJS5学习笔记]第十四节 Extjs5中data数据源store和datapanel学习
  8. docker 数据卷和docker数据卷容器以及数据卷的备份和还原
  9. 005-docker启动设置环境变量
  10. CSS3背景相关新增属性
  11. (python)数据结构---字符串
  12. css3实现背景渐变
  13. Codeforces 802I Fake News (hard) (SA+单调栈) 或 SAM
  14. python学习打卡 day07 set集合,深浅拷贝以及部分知识点补充
  15. Asp.Net分页生成页码超链接方法
  16. CodeForces 540C Ice Cave (BFS)
  17. WPF DataGrid实现分页显示
  18. [Erlang28]使用匿名函数灵活组合不同的case
  19. FastDFS图片服务器
  20. NSLog 输出格式集合

热门文章

  1. sql 字段分割函数 + 查询
  2. lua 文件读写处理(操作敏感词库)
  3. 二、chaosblade实现k8s集群操作
  4. 在C#中Release与Debug的区别小案例
  5. bsub opts
  6. linux check folder files how many files
  7. 在windows如何下载android源码
  8. rsyslog由于RateLimit丢失日志的处理
  9. ReactJS单页面应用之项目搭建
  10. 转载安卓或苹果手机获取URL scheme方法