需求:

数据结构:时间戳,省份,城市,用户,广告,中间字段使用空格分割。

样本如下:

1516609143867 6 7 64 16

1516609143869 9 4 75 18

1516609143869 1 7 87 12

思路分析如下:

第一步:过滤无关的数据字段,只留下省份,广告
第二步:省份与广告可以组成一个key,value就是该广告在该省份的点击次数
第三步:把省份这个字段作为key,将数据分隔到不同的集合;
第四步:对分区内的数据按照value进行排序,使得在集合内实现有序
最后取出前三名
 
实现代码如下:
package example

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext} //需求:统计出每一个省份广告被点击次数的TOP3
object Example { def main(args: Array[String]): Unit = { //1.初始化spark配置信息并建立与spark的连接
val sparkConf = new SparkConf().setMaster("local[*]").setAppName("example")
val sc = new SparkContext(sparkConf) //2.读取数据生成RDD:TS,Province,City,User,AD
val line = sc.textFile("E:/idea/spark3/in/agent.log") //3.按照最小粒度聚合:((Province,AD),1)
val provinceAdToOne = line.map { x =>
val fields: Array[String] = x.split(" ")
((fields(1), fields(4)), 1)
} //4.计算每个省中每个广告被点击的总数:((Province,AD),sum)
val provinceAdToSum: RDD[((String, String), Int)] = provinceAdToOne.reduceByKey(_ + _) //5.将省份作为key,广告加点击数为value:(Province,(AD,sum))
val provinceToAdSum: RDD[(String, (String, Int))] = provinceAdToSum.map(x => (x._1._1, (x._1._2, x._2))) //6.将同一个省份的所有广告进行聚合(Province,List((AD1,sum1),(AD2,sum2)...))
val provinceGroup: RDD[(String, Iterable[(String, Int)])] = provinceToAdSum.groupByKey() //7.对同一个省份所有广告的集合进行排序并取前3条,排序规则为广告点击总数
val provinceAdTop3: RDD[(String, List[(String, Int)])] = provinceGroup.mapValues { x =>
x.toList.sortWith((x, y) => x._2 > y._2).take(3)
} //8.将数据拉取到Driver端并打印
provinceAdTop3.saveAsTextFile("E:/idea/spark3/out/example") //9.关闭与spark的连接
sc.stop()
}
}
 
 

最新文章

  1. AJAX操作数据
  2. MS SQL 排序规则总结
  3. 黑马.net12期视频教程
  4. hdu 4968 Improving the GPA (水 暴力枚举)
  5. 使用 c# 调用进程相关开发
  6. c/c++字符数组和字符串大揭秘
  7. 如何在VC中显示透明背景位图
  8. Java第10次实验(数据库)
  9. 基于java的ES开发
  10. go语言nsq源码解读八 http.go、http_server.go
  11. 京东购物车的 Java 架构实现及原理!
  12. day 7-11 初识MySQL数据库及安装密码设置破解
  13. 在win上配置linux虚拟机图解
  14. overload(重载)和override(覆盖)的注意点
  15. BZOJ4974 八月月赛 Problem D 字符串大师 KMP
  16. linux 使用笔记1
  17. 013_Mac OS X下应该如何卸载软件和安装应用软件
  18. 内网渗透中的NTLM-Hash Relay
  19. 关于block和inline元素的float
  20. 用tkinter实现的gui小工具

热门文章

  1. 吴裕雄--天生自然C++语言学习笔记:C++ 变量作用域
  2. python counter、闭包、generator、解数学方程、异常
  3. Java算法练习——两数相加
  4. 洛谷 P5662 纪念品
  5. 18 12 29 css background
  6. Ubuntu使用小技巧汇总
  7. Win10下 Java环境变量配置
  8. MySQL实现免密登录和数据库无法启动问题
  9. 随机森林RF
  10. Okhttp 多次调用同一个方法出现错误java.net.SocketException: Socket closed