有两个海量日志文件存储在hdfs上,
其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);
访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,
计算访问日志中独立user数量最多的前10个url,用MapReduce实现。

提示:
1、要统计前10,需要两个步骤,第一个步骤实现join,统计出每个url对应的独立用户数,第二步骤求出top10
2、两个大表join,用同一job多输入
3、要根据ip字段join,所以要根据ip分区
4、求top10

答案在此:

https://www.cnblogs.com/feifeicui/p/10247352.html

最新文章

  1. IE7,6与Fireofx的CSS兼容性处理方法集结
  2. Subsonic简单的语法整理
  3. 学习Linux系列--布署常用服务
  4. PDF解析记录——Pdfbox
  5. 《高性能JavaScript》笔记
  6. chrom_input_click
  7. Fresco 源码分析(三) Fresco服务端处理(2) Producer具体实现的内容
  8. What are some good resources for learning about Artificial Neural Networks
  9. 个人总结ANDROID开发事项
  10. java实现电脑远程控制完整源代码(转)
  11. [TWRP 2.8.4] for 小米2S/2SC 支持中英文切换
  12. 【Jqurey EasyUI+Asp.net】---DataGrid增加、删、更改、搜
  13. C++设计模式-singleton单例模式_new
  14. Linux服务器导入导出SVN项目
  15. 关于最新的APP上架流程
  16. centos 下的 clamav 安装使用
  17. shiro 分布式缓存用户信息
  18. autocomplate 学习
  19. 网页异步加载之AJAX理解
  20. 微信小程序添加悬浮在线客服会话按钮

热门文章

  1. 洛谷 P1199 三国游戏
  2. Linux Ubuntu 14.04 LTS下VirtualBox连接USB
  3. eclipse 当安装jad仍然不能反编译,提示attach source的时候
  4. 164 Maximum Gap 最大间距
  5. Web API性能优化(一)压缩
  6. page.php 引入js文件
  7. C#实现较为实用的SQLhelper
  8. 【学习笔记】深入理解js原型和闭包(5)——instanceof
  9. WARN警告:Going to buffer response body of large or unknown size. Using getResponseBodyAsStream instead is recommended
  10. spring mvc 解决 Could not open ServletContext resource [/WEB-INF/dispatcher-servlet.xml] 异常