获取特定歌曲热评:

首先,我们打开网易云网页版,击排行榜,然后点击左侧云音乐热歌榜,如图:

关于如何抓取指定的歌曲的热评,参考这篇文章,很详细,对小白很友好:

手把手教你用Python爬取网易云40万+评论

下图是用上文的方法找到热评后,确认下这条确实包含着热评,hotComments就是我们要找的热门评论:


到此为止,我们如何抓取网易云音乐的热门评论已经分析完了,我们再分析一下如何获取云音乐热歌榜中所有歌曲的信息。


获取热榜全部歌曲

同样F12大法。这次选all,因为是找歌单,仔细观察,很容易定位到这个嫌犯:toplist?id=3778678

点进去看下,预览一下该请求返回的结果,哈哈,就你啦!

heads:

request headers
现在看response:

太乱了,格式化一下,然后往下翻:


这样就好找了,框框里面就是包含歌曲信息的代码。

因此,我们只需要将该请求的代码中,将包含信息的代码筛选出来。

我们在这里使用正则表达式进行数据筛选。

通过观察特点,我们可以通过两次正则表达式的筛选,将我们需要的歌曲信息提取出来。

第一次正则表达式如下:

<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>

第二次正则表达式将需要的歌曲信息提取出来,我们需要歌曲的歌名和id,对应的正则表达式如下:

获取歌名:

<li><a href="/song\?id=\d*?">(.*?)</a></li>

获取歌曲的id:

<li><a href="/song\?id=(\d*?)">.*?</a></li>

完整代码:

 1 #!/usr/bin/env python3
2 # -*- coding: utf-8 -*-
3
4 import re
5 import urllib.request
6 import urllib.error
7 import urllib.parse
8 import json
9
10
11 def get_all_hotSong(): # 获取热歌榜所有歌曲名称和id
12 url = 'http://music.163.com/discover/toplist?id=3778678' # 网易云云音乐热歌榜url
13 header = { # 请求头部
14 'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
15 }
16 request = urllib.request.Request(url=url, headers=header)
17 html = urllib.request.urlopen(request).read().decode('utf8') # 打开url
18 html = str(html) # 转换成str
19 pat1 = r'<ul class="f-hide"><li><a href="/song\?id=\d*?">.*</a></li></ul>' # 进行第一次筛选的正则表达式
20 result = re.compile(pat1).findall(html) # 用正则表达式进行筛选
21 result = result[0] # 获取tuple的第一个元素
22
23 pat2 = r'<li><a href="/song\?id=\d*?">(.*?)</a></li>' # 进行歌名筛选的正则表达式
24 pat3 = r'<li><a href="/song\?id=(\d*?)">.*?</a></li>' # 进行歌ID筛选的正则表达式
25 hot_song_name = re.compile(pat2).findall(result) # 获取所有热门歌曲名称
26 hot_song_id = re.compile(pat3).findall(result) # 获取所有热门歌曲对应的Id
27
28 return hot_song_name, hot_song_id
29
30
31 def get_hotComments(hot_song_name, hot_song_id):
32 url = 'http://music.163.com/weapi/v1/resource/comments/R_SO_4_' + hot_song_id + '?csrf_token=' # 歌评url
33 header = { # 请求头部
34 'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
35 }
36 # post请求表单数据
37 data = {
38 'params': 'zC7fzWBKxxsm6TZ3PiRjd056g9iGHtbtc8vjTpBXshKIboaPnUyAXKze+KNi9QiEz/IieyRnZfNztp7yvTFyBXOlVQP/JdYNZw2+GRQDg7grOR2ZjroqoOU2z0TNhy+qDHKSV8ZXOnxUF93w3DA51ADDQHB0IngL+v6N8KthdVZeZBe0d3EsUFS8ZJltNRUJ',
39 'encSecKey': '4801507e42c326dfc6b50539395a4fe417594f7cf122cf3d061d1447372ba3aa804541a8ae3b3811c081eb0f2b71827850af59af411a10a1795f7a16a5189d163bc9f67b3d1907f5e6fac652f7ef66e5a1f12d6949be851fcf4f39a0c2379580a040dc53b306d5c807bf313cc0e8f39bf7d35de691c497cda1d436b808549acc'}
40 postdata = urllib.parse.urlencode(data).encode('utf8') # 进行编码
41 request = urllib.request.Request(url, headers=header, data=postdata)
42 reponse = urllib.request.urlopen(request).read().decode('utf8')
43 json_dict = json.loads(reponse) # 获取json
44 hot_commit = json_dict['hotComments'] # 获取json中的热门评论
45
46 num = 0
47 fhandle = open('./song_comments', 'a', encoding='utf-8') # 写入文件
48 fhandle.write(hot_song_name + ':' + '\n')
49
50 for item in hot_commit:
51 num += 1
52 fhandle.write(str(num) + '.' + item['content'] + '\n')
53 fhandle.write('\n==============================================\n\n')
54 fhandle.close()
55
56
57 hot_song_name, hot_song_id = get_all_hotSong() # 获取热歌榜所有歌曲名称和id
58
59 num = 0
60 while num < len(hot_song_name): # 保存所有热歌榜中的热评
61 print('正在抓取第%d首歌曲热评...' % (num + 1))
62 get_hotComments(hot_song_name[num], hot_song_id[num])
63 print('第%d首歌曲热评抓取成功' % (num + 1))
64 num += 1

运行:

爬下来的:

对比:

最新文章

  1. win10磁盘100%解决办法
  2. GEMR: Get the parent window for view
  3. ajax中基本兼容各浏览器的XMLHttpRequest的创建
  4. JQuery validate 在IE兼容模式下出现 js错误(成员找不到)的修正:
  5. Android中获取应用程序(包)的大小-----PackageManager的使用(二)
  6. 使用BOOST BIND库提高C++程序性能
  7. MyBatis 模糊查询
  8. cocos2dx 在Xcode里面 resource 里面文件夹的搜索
  9. Sdcard插拔、状态广播监听,Android文件系统,Android存储器相关知识总结
  10. python之常用模块
  11. springboot第一个项目【创建】
  12. 将python、pip 加入环境变量
  13. java之定时任务
  14. RxJava + Retrofit
  15. scrapy中Request中常用参数
  16. [leetcode]Simplify Path @ Python
  17. PyQT5-QCalendarWidget 日历显示
  18. Docker技术:在微软云Azure上使用K8S
  19. python中的lambda知多少!
  20. ubuntu boot空间不足的解决方法

热门文章

  1. 重新整理 .net core 实践篇—————日志系统之服务与日志之间[十六]
  2. Node.js使用本地依赖
  3. 保姆级尚硅谷SpringCloud学习笔记(更新中)
  4. python pyyaml操作yaml配置文件
  5. 性能工具之Jmeter-Dubbo脚本开发
  6. JVM 内存溢出 实战 (史上最全)
  7. 「10.16晚」序列(....)&#183;购物(性质)&#183;计数题(DP)
  8. CosId 通用、灵活、高性能的分布式 ID 生成器
  9. 20201123 实验一《Python程序设计》实验报告
  10. PL/SQL插入数据报错:Access violation at address 00413A81 in module &#39;plsqldev.exe&#39;. Read of address 00000000