4.10:Spark之wordcount
2024-10-20 03:16:32
〇、概述
1、拓扑结构
2、目标
使用spark完成计数实验
一、启动环境
二、新建数据文件
三、查看文件内容
四、启动spark服务
五、编写代码
复制以下代码到shell中(复制后在终端右键->粘贴):
import org.apache.spark.HashPartitioner
import java.io.PrintWriter
import java.io.File val links = sc.parallelize(List(("A",List("B","C")),("B",List("A","C")),("C",List("A","B","D")),("D",List("C")))).partitionBy(new HashPartitioner(100)).persist() var ranks=links.mapValues(v=>1.0) for (i <- 0 until 10) {
val contributions=links.join(ranks).flatMap {
case (pageId,(links,rank)) => links.map(dest=>(dest,rank/links.size))
}
ranks=contributions.reduceByKey((x,y)=>x+y).mapValues(v=>0.15+0.85*v)
} ranks.sortByKey().collect() var input = sc.textFile("hdfs://localhost:9000/wordcount/srcdata/article.data")
val writer = new PrintWriter(new File("/home/user/bigdata/spark_output.txt"))
writer.println(input.flatMap(x=>x.split(" ")).countByValue())
writer.close()
input.flatMap(x=>x.split(" ")).countByValue()
之后可以查看输出结果。
最新文章
- actor concurrency
- JQ基础之选择器
- AFNnetworking详解
- 孙鑫MFC学习笔记20:Hook编程
- 洛谷 U4792 Acheing 单调队列
- CSS3设置多张背景图片
- BZOJ3153 : Sone1
- 通过JSTL+EL实现循环迭代
- C++求等比数列之和
- SPF详解
- Azure编程笔记(1):序列化复杂类型的TableEntity字段
- IBM发布JumpGate 连接OpenStack和公有云
- IIS部署新网站
- 通用后台管理系统UI-AdminLTE:构造动态菜单栏
- 《Thinking in Java》学习笔记(四)
- 安恒杯 3月线上个人赛WriteUp
- Linux Django项目测试
- 编程菜鸟的日记-初学尝试编程-寻找等长数组A与B(所含元素相同,顺序不同)相匹配的元素即a[i]=b[j]
- vue的学习(常用功能)
- 30.get和post的区别