大数据学习——有两个海量日志文件存储在hdfs
2024-09-03 11:34:12
有两个海量日志文件存储在hdfs上,
其中登陆日志格式:user,ip,time,oper(枚举值:1为上线,2为下线);
访问之日格式为:ip,time,url,假设登陆日志中上下线信息完整,切同一上下线时间段内是用的ip唯一,
计算访问日志中独立user数量最多的前10个url,用MapReduce实现。
提示:
1、要统计前10,需要两个步骤,第一个步骤实现join,统计出每个url对应的独立用户数,第二步骤求出top10
2、两个大表join,用同一job多输入
3、要根据ip字段join,所以要根据ip分区
4、求top10
答案在此:
https://www.cnblogs.com/feifeicui/p/10247352.html
最新文章
- IE7,6与Fireofx的CSS兼容性处理方法集结
- Subsonic简单的语法整理
- 学习Linux系列--布署常用服务
- PDF解析记录——Pdfbox
- 《高性能JavaScript》笔记
- chrom_input_click
- Fresco 源码分析(三) Fresco服务端处理(2) Producer具体实现的内容
- What are some good resources for learning about Artificial Neural Networks
- 个人总结ANDROID开发事项
- java实现电脑远程控制完整源代码(转)
- [TWRP 2.8.4] for 小米2S/2SC 支持中英文切换
- 【Jqurey EasyUI+Asp.net】---DataGrid增加、删、更改、搜
- C++设计模式-singleton单例模式_new
- Linux服务器导入导出SVN项目
- 关于最新的APP上架流程
- centos 下的 clamav 安装使用
- shiro 分布式缓存用户信息
- autocomplate 学习
- 网页异步加载之AJAX理解
- 微信小程序添加悬浮在线客服会话按钮
热门文章
- 洛谷 P1199 三国游戏
- Linux Ubuntu 14.04 LTS下VirtualBox连接USB
- eclipse 当安装jad仍然不能反编译,提示attach source的时候
- 164 Maximum Gap 最大间距
- Web API性能优化(一)压缩
- page.php 引入js文件
- C#实现较为实用的SQLhelper
- 【学习笔记】深入理解js原型和闭包(5)——instanceof
- WARN警告:Going to buffer response body of large or unknown size. Using getResponseBodyAsStream instead is recommended
- spring mvc 解决 Could not open ServletContext resource [/WEB-INF/dispatcher-servlet.xml] 异常