Python 爬取陈都灵百度图片
2024-09-03 07:14:35
Python 爬取陈都灵百度图片
标签(空格分隔): 随笔
今天意外发现了自己以前写的一篇爬虫脚本,爬取的是我的女神陈都灵,尝试运行了一下发现居然还能用。故把脚本贴出来分享一下。
import requests
import os
import json
#import random
#firsturl='https://image.baidu.com/search/acjson?'
#header={'User-Agent':'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
def get_chenduling(le):
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
url = 'https://image.baidu.com/search/acjson?'
data={'tn':'resultjson_com',
'ipn':'rj',
'ct':'201326592',
'is':'',
'fp':'result',
'queryWord':'陈都灵',
'cl':'2',
'lm':'-1',
'ie':'utf-8',
'oe':'utf-8',
'adpicid':'',
'st':'',
'z':'',
'ic':'',
'word':'陈都灵',
's':'',
'se':'',
'tab':'',
'width':'',
'height':'',
'face':'',
'istype':'',
'qc':'',
'nc':'',
'fr':'',
'cg':'star',
'pn':'30',
'rn':'30',
'gsm':le,
}
response=requests.get(url,params=data,headers=header)
#print(response.text[:3000])
chen=json.loads(response.text)
#
if chen and 'data' in chen:
for item in chen.get('data'):
newurl=item.get('middleURL')
#print(newurl)
if newurl:
dd=savechen(newurl,header)
resave(newurl,dd)
nextle=chen.get('gsm')
#print(nextle)
get_chenduling(nextle)
def savechen(item,header):
try:
dudu=requests.get(item,headers=header)
dudu.raise_for_status()
#fpath='{0}.{1}.{2}'.format('d:\chenduling\\',item.split('.')[-2],'jpg')
return dudu.content
except:
print('有毛病。。。。')
def resave(item,html):
fpath = '{0}.{1}'.format('d:\chenduling', item.split(',')[-1])
if not os.path.exists(fpath):
with open (fpath,'wb') as ff:
print('downloading.....{0}'.format(item))
ff.write(html)
def main():
le='le'
#firsturl = 'https://image.baidu.com/search/acjson?'
#header = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
get_chenduling(le)
if __name__ =='__main__':
main()
运行了一下,一点问题都没有,图片都存放到D盘了,拓展到其他图片估计也没问题,至于le这个参数干嘛的,我也记不清了。隐约记得有一个请求头部包含一串数字,但是这串数字并没有卵用。
最新文章
- [.NET] 利用 async &; await 进行异步 IO 操作
- hadoop搭建初步总结
- Android RecyclerView 动画展开item显示详情
- Windows内核对象
- asp.net子窗体与父窗体交互
- windows CE 6.0编译报BLDDEMO: There were errors building MY283错误解决办法
- Hibernate的集合映射(Set、List、Array、Map、Bag)
- 【宽搜】BAPC2014 J Jury Jeopardy (Codeforces GYM 100526)
- 字体图标 icon font
- Hopcroft-Karp算法模版
- Oracle Cursor的使用
- Quartz CronTrigger运用
- [MFC美化] SkinMagic使用详解1- SkinMagic使用流程
- TDK伪原创? 对matatags的研究总结
- C语言第一次实验报告————PTA实验1.2.3内容
- html5学习笔记——基础
- android中include
- hdu-5707-Combine String
- 字符串以及for循环
- jscript调用bat注意事项
热门文章
- repo源
- BJOI做题记录
- Comparison of SIFT Encoded and Deep Learning Features for the Classification and Detection of Esca Disease in Bordeaux Vineyards(分类MobileNet,目标检测 RetinaNet)
- 龙贝格积分(c++)
- 将lol人物模型导入到Unity3d
- Tomcat启动时,控制台和IDEA控制台中文乱码解决方案
- 剑指offer:两个链表的第一个公共结点
- 忘记zip密码咋办?python在手密码我有
- nginx支持websocket及websocket部分原理介绍
- pip3的国内安装源