Spark之权威指南经典案例
2024-09-01 00:55:58
hadoop权威指南上有一个求历史最高温度的经典案例,源数据如下:
-- sample.txt
0067011990999991950051507004+68750+023550FM-12+038299999V0203301N00671220001CN9999999N9+00001+99999999999
0043011990999991950051512004+68750+023550FM-12+038299999V0203201N00671220001CN9999999N9+00221+99999999999
0043011990999991950051518004+68750+023550FM-12+038299999V0203201N00261220001CN9999999N9-00111+99999999999
0043012650999991949032412004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+01111+99999999999
0043012650999991949032418004+62300+010750FM-12+048599999V0202701N00461220001CN0500001N9+00781+99999999999
--通过spark来求天气的最大值比写MapReduce不知道简单了多少倍
var lines=sc.textFile("/root/wangbin/sample.txt")
-- 定义函数,正数不取符号,负数取符号
var data=lines.map(line=>{
if(line.charAt(87)=='+')
{(line.substring(15,19),line.substring(88,92))}
else
{(line.substring(15,19),line.substring(87,92))}
})
-- 把第二列数据转为浮点型
var data2=data.map(res=>(res._1,res._2.toDouble))
-- 取相对key分组的最大value值
var data3=data2.reduceByKey((x,y)=>Math.max(x,y))
最新文章
- python sys模块
- UITextField里面的 placeholder颜色和字体
- LinearLayout和RelativeLayout 区别
- 【DFS,双向】NYOJ-20-吝啬的国度
- Javascript模块化编程:模块的写法
- WCF入门教程系列一
- Java引用类型具体解释
- C# Memcached缓存
- test_CSDN_markdown_format
- mysql运维必会的一些知识点整理
- 金融量化分析【day110】:NumPy多维数组
- JavaScript面向对象编程指南(五) 原型
- Python源码文件中带有中文时,输出乱码
- 【转载】Caffe + Ubuntu 14.04 + CUDA 6.5 新手安装配置指南
- [翻译] KYCircularProgress
- [19/04/24-星期三] GOF23_创建型模式(建造者模式、原型模式)
- 基于 HTML5 Canvas 的 Web SCADA 组态电机控制面板
- 003——VUE操作元素属性
- android library使用方法
- 磨刀——python及相关工具