作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/3339

本次选取的是爬取歌曲《大碗宽面》的歌评数据

1.将爬虫大作业产生的csv文件上传到HDFS

2.对CSV文件进行预处理生成无标题文本文件

3.把hdfs中的文本文件最终导入到数据仓库Hive中

创建数据库:

创建comment表:

创建users表:

4.在Hive中查看并分析数据

查询comment表:

查询users表:

5.用Hive对爬虫大作业产生的进行数据分析,写一篇博客描述你的分析过程和分析结果。(10条以上的查询分析)

(1)查询点赞数前20的评论

分析:在点赞最多的评论中,有对这首歌进行科普的,也有对这首歌以及歌手表示称赞的,可以看出网友对这个作品的评价还可以。

(2)查询点赞数前10的用户信息

(3)查询男女数量比例

分析:其中0表示没有设置性别,1表示性别为男,2表示性别为女,从数量上可以看出男性对这首歌更感兴趣一些。

(4)男性点赞数前20的评论

分析:在男性点赞前20的评论中,可以看出对歌手的评价比较多,也有喜欢吃面而来的。

(5)女性点赞数前20的评论

分析:在女性点赞前20的评论中,出现最多的词汇是哈哈哈,可以看出这首歌还挺逗。

(6)评论用户中的平均等级

分析:在这首歌的评论中,用户的平均等级为六点多,从用户等级制度来看,评论的用户使用这个平台时间挺长的。

(7)评论用户的等级分布

分析:在等级分布来看,用户等级在6、7、8级的比较多,可以看出大部分都是音乐爱好者。

(8)评论用户中的平均年龄

(9)评论用户的城市前十分布

分析:根据城市编号和用户的城市分布来看,用户主要分布在北京、广东、四川等地区。

(10)粉丝数前25的用户的评论

分析:一些粉丝数较多的用户也对这首歌的评价不低,说明这首歌确实很不错吧。

(11)关注数前25的用户评论

分析:在关注数前25的用户评论中,出现了相同的用户评论了多条评论,说明这些用户热衷于评论音乐;

(12)评论用户中平均听歌数量

分析:在评论用户中,平均听歌数量接近三千。

最新文章

  1. supermap iclient for js 标签专题图(服务端)
  2. 366. Find Leaves of Binary Tree
  3. 英语学习app分析
  4. Merry Christmas & Happy New Year!!
  5. 爱壁纸 站立会议(六)--Spring阶段总结会议
  6. c++数组-矩阵的转置
  7. BZOJ2337: [HNOI2011]XOR和路径
  8. CentOS下源码安装Apache2.4+PHP5.4+MySQL5.5
  9. JAVA抽象类,接口,多态,抽象方法,一次列举
  10. linux(vi)多行注释和取消注释.
  11. 【转】我的Android笔记(十)—— ProgressDialog的简单应用,等待提示
  12. WCF 客户端与服务端消息传输
  13. VGG网路结构
  14. 【JDK1.8】JUC——AbstractQueuedSynchronizer
  15. 【重学计算机】计组D2章:数据表示
  16. java异常,异常处理,异常类 关键字:throws 和 throw 自定义的异常类
  17. 页面对象(Page Object)模式
  18. 2017-11-11 Sa Oct Is it online
  19. I - Tunnel Warfare HDU - 1540 线段树最大连续区间
  20. 爬虫--Scrapy-基于RedisSpider实现的分布式爬虫

热门文章

  1. 深入理解JVM-内存溢出案例演示与分析
  2. Gradle 使用教程之 Task 详解
  3. Linux必知必会--grep
  4. JAVA设计模式之工厂模式—Factory Pattern
  5. 动态域名作为dga的做法
  6. Codeforces_Round_547 (Div. 3)题解
  7. 基于appium快速实现H5自动化测试
  8. python的gui库tkinter
  9. 微信小程序~上拉加载onReachBottom
  10. Alpha冲刺(9/10)——追光的人