简单的方法爬取b站dnf视频封面步骤解释
2024-09-06 02:13:28
这随笔代码链接:http://www.cnblogs.com/yinghualuowu/p/8186375.html
首先我们要知道,一个分区封面显示到底在哪里可以找到。
很明显,查看审查元素并不能找到封面。这个时候应该想到封面是动态加载的。
再次去Network寻找,我们发现这样一个JS。这是右侧热门视频封面的内容,点开之后存在pic:正是封面的链接。
进行json解析之后,判定pic在data>archives结构下。这个时候链接是有了,那么将如何把Json拿出来呢?
让我们观察一下原来的信息,除去JQuery........()这层,里面就是json字符串了,既然如此简单,那么我们就...
查找开头第一个(,然后截取至最后一个),里面不就是了吗?
def instr(keystr):
st=keystr.find('(')+1
strhtml=keystr[st:len(keystr)-1]
return strhtml
def picsave(strJson,number):
global cnt
strdic=strJson['data']['archives']
num=len(strdic)
for i in range(0,num,1):
cnt=cnt+1
strdic=strJson['data']['archives'][i]
print(strdic['pic'])
urllib.request.urlretrieve(strdic['pic'],'E:\图片\dnf\%s.jpg'%(cnt))
然后进行翻页判断,我们尝试点开第一页和后面几页,看看不同。pn数字貌似变化很有规律啊。
于是...
def urlget(num):
for i in range(1,num,1):
url='https://api.bilibili.com/x/tag/ranking/archives?callback=jQuery172014070206081723846_1514982701564&tag_id=5033&rid=65&type=0&pn='+str(i)+'&ps=20&jsonp=jsonp&_=1514982702144'
response=urllib.request.urlopen(url)
html=response.read().decode('utf-8')
html=instr(html)
strJson=eval(html)
picsave(strJson,i)
然后,就没有了。其实要高清大图的话,你需要点进去一个视频,然后审查元素,后面我会写一个输入av号来获取封面的代码
最新文章
- WebStorm按Tab建快速生成代码模块
- java覆盖重写规则
- JavaScript事件---事件绑定和深入
- JavaScript理解
- iScroll相关
- Visual Studio 2015中的常用调试技巧分享
- ebs清除并法管理器所清除的表
- 番外:android模拟器连不上网
- Smarty3配置及入门语法
- php实现粘贴截图并完成上传功能
- hadoop dfs.datanode.du.reserved 预留空间配置方法
- 在Linux添加定时任务删除5天前的日志文件
- Python新手入门英文词汇笔记(转)
- JavaScript——封装
- 理解JVM之Java内存区域
- Unity之日志管理
- N76E003之ISP
- JSTL中&;#60;c:set&;#62;标签的用法
- java.io.CharConversionException: Not an ISO 8859-1 character:
- 《快学Scala》第二章 控制结构和函数
热门文章
- Cannot find PHPUnit in include path (.;C:\php5\pear)
- 1014 Waiting in Line (30)(30 分)
- ACM学习历程—HDU4417 Super Mario(树状数组 &;&; 离线)
- Operating System-Process(1)什么是进程&;&;进程的创建(Creation)&;&;进程的终止(Termination)&;&;进程的状态(State)
- nefu阶乘定理
- Python函数(十二)-迭代器
- docker-machine create --driver virtualbox myvm1 创建失败
- 问题:C#调webservice超时;结果:C#调用webservice服务超时
- python 基础 列表 字符串转换
- linux日常管理-防火墙netfilter工具-iptables-3