原文链接:

https://www.toutiao.com/i6765677128022229517/

PV 是Page Views的缩写,即页面浏览量,用户每一次对网站中的每个网页访问均被记录一次。注意,访客每刷新一次页面,pv就增加一次。

我们目前的数据是:

其中的数据我们会得到标注

根据标注我们进行代码筛选,编写MapReduce

分析:我们先根据标注的表中有一个"省份"的字段,依据"省份"编写map。

首先我们创建Maven项目

填写pom信息

创建Map类

基本结构如下:

我们需要对原数据进行筛选

长度筛选

省份编号是空值

确保数字编号是否是数字

筛选URL是否为空值

创建Reduce类

编写内容

创建运行类

编写程序内容

准备数据源文件和Jar包

启动Hadoop

我们将数据上传到HDFS中

我们查看下数据,发现数据已经上传了

我们执行我们的jar包

yarn jar /data/webpv/webpv.jar com.xlglvc.xxx.mapredece.webpv.WebPvDriver /webpv/data1 /webpvoutput

执行成功

我们查看生成的数据,已经生成了,我们查看下最终数据

这样我们就知道每个省份最终访问的次数了,了解到那个省份访问的最多了

最新文章

  1. SEO
  2. CE驱动动态加载卸载
  3. 【BZOJ-1492】货币兑换Cash DP + 斜率优化 + CDQ分治
  4. openstack Icehouse发布
  5. Android项目实战(三):实现第一次进入软件的引导页
  6. 设置Sql Agent运行Job时的执行账户
  7. POJ1159——Palindrome(最长公共子序列+滚动数组)
  8. sdut2623--The number of steps(概率dp第一弹,求期望)
  9. 如何设置 Internal 类,方法,属性对其他项目可见
  10. CNN for Visual Recognition (02)
  11. centos7 crontab笔记
  12. windows下怎么解决Python双版本问题
  13. sql 查询字段如果为null 则返回0的写法
  14. 电脑小白和ta的小白电脑——JAVA开发环境
  15. Java可以像Python一样方便爬去世间万物
  16. css3 之 display 属性
  17. BZOJ 4706: B君的多边形 找规律
  18. Node单线程高并发原理
  19. 捷报 FastAdmin 国内开源排名第 13 名
  20. Flask知识总汇

热门文章

  1. Linux实体服务器添加网卡
  2. ABP VNext框架基础知识介绍(2)--微服务的网关
  3. [Java Web 王者归来]读书笔记2
  4. AT5221 [ABC140C] Maximal Value 题解
  5. SpringBoot启动报错:ould not be registered. A bean with that name has already been defined in file and overriding is disabled.
  6. 优化vue+springboot项目页面响应时间:waiting(TTFB) 及content Download
  7. 【LeetCode】969. Pancake Sorting 解题报告(Python & C++)
  8. 【LeetCode】452. Minimum Number of Arrows to Burst Balloons 解题报告(Python)
  9. 【LeetCode】698. Partition to K Equal Sum Subsets 解题报告(Python & C++)
  10. 分布式系统(二)——GFS