Spark Streaming的实时词频和累加词频统计
2024-09-01 02:41:35
(注:运行环境是Ubuntu16, pycharm)
1、
按时段统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计各个时间段内每个单词出现的次数(每个时间段都分别统计,需要使用的关键的DStream成员函数:flatMap, map, reduceByKey)。
checkpoint是设置检查点,实时统计不需设置,累加统计时需要。
运行结果:
打开terminal ,输入 :nc -lp 9999 回车 (9999是端口号,可以是随意的数字,但是要与第5行代码设置的端口号一致)
控制台输出的结果:
2、
累加统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计历史时间段内每个单词累计出现的次数(所有时间段都共一个统计数,需要使用的关键的DStream成员函数:flatMap, map, updateStateByKey)。
(导入的包、实例化、设置端口与上一步一致,且要设置检查点,设置命令看上一步第6行代码)
运行结果:
最新文章
- iOS之获取经纬度并通过反向地理编码获取详细地址
- 一个简单的c# 贪吃蛇程序
- RunTime的一些用法
- 谈谈你对http的理解
- 百度的domain命令到底有用吗?
- Away3D 4.1.4 中实现骨骼绑定
- C语言基础学习运算符-逻辑运算符
- js加载优化-二
- dokcer自动化构建部署java web 基于jenkins+maven+nuxus容器
- Velocity 模板引擎的应用
- iso移动端input的bug解决(vue)
- 基于上三角变换或基于DFS的行(列)展开的n阶行列式求值算法分析及性能评估
- c2d遮罩
- 跳跃表Skip List的原理
- UVA1451 Average
- getRequestURI getRequestURL 区别
- cuda中threadIdx、blockIdx、blockDim和gridDim的使用
- C#可扩展数组转变为String[]数组
- vue监听不到props中的值时
- 什么情况下调用doGet()和doPost()?
热门文章
- Codeforces Round #509 (Div. 2) F. Ray in the tube(思维)
- BZOJ 2594: [Wc2006]水管局长数据加强版 (LCT维护最小生成树)
- .net core Areas区域
- 小米oj 数组差(挺好的题)
- CSP-S 模拟53 题解
- C#字符串和值转换 以及万能转换
- jmeter从文件中读取参数,并实现循环
- HDU 5974 A Simple Math Problem ——(数论,大连区域赛)
- nodejs豆瓣爬虫
- HTML容器标签和文本标签