05 RDD练习:词频统计
2024-10-21 19:34:59
一、词频统计:
1.读文本文件生成RDD lines
2.将一行一行的文本分割成单词 words flatmap()
3.全部转换为小写 lower()
4.去掉长度小于3的单词 filter()
5.去掉停用词
6.转换成键值对 map()
7.统计词频 reduceByKey()
二、学生课程分数 groupByKey()
-- 按课程汇总全总学生和分数
1. 分解出字段 map()
2. 生成键值对 map()
3. 按键分组
4. 输出汇总结果
三、学生课程分数 reduceByKey()
-- 每门课程的选修人数
-- 每个学生的选修课程数
最新文章
- 这里有个坑---entity为null的问题
- UnicodeDecodeError: 'utf8' codec can't decode byte 0xce in position 47: invalid continuation byte
- WPF_X命名空间
- predis如何实现phpredis的pconnect方法
- The xor-longest Path
- htt p第一章概述
- [ExtJS5学习笔记]第十四节 Extjs5中data数据源store和datapanel学习
- docker 数据卷和docker数据卷容器以及数据卷的备份和还原
- 005-docker启动设置环境变量
- CSS3背景相关新增属性
- (python)数据结构---字符串
- css3实现背景渐变
- Codeforces 802I Fake News (hard) (SA+单调栈) 或 SAM
- python学习打卡 day07 set集合,深浅拷贝以及部分知识点补充
- Asp.Net分页生成页码超链接方法
- CodeForces 540C Ice Cave (BFS)
- WPF DataGrid实现分页显示
- [Erlang28]使用匿名函数灵活组合不同的case
- FastDFS图片服务器
- NSLog 输出格式集合