python 爬站长素材网页图片
2024-10-21 06:17:46
一、我们要用python第三方库:
import requests
import re
二、找到自己感兴趣的网页图片:
for i in range(1,2):
url = "https://sc.chinaz.com/tupian/index.html" # 网站地址
if i ==1:
url = "https://sc.chinaz.com/tupian/index.html"#网站地址
else:
url = "https://sc.chinaz.com/tupian/index_%s.html" %i
res = requests.get(url)
res.encoding = res.apparent_encoding# 自适应字符编码设置
三、用正则表达式提取面每个页面图片对应的详情页的地址
获取图片地址和图片名字
res_url_i=re.findall('<img src2="(.*?)" alt=".*?">',res.text)
res_url_name = re.findall('<img src2=".*?" alt="(.*?)">',res.text)
四、我们在压缩下载
for res_url_i1, res_url_name1 in zip(res_url_i, res_url_name):
res_url_i = "https:" + res_url_i1
image_url = requests.get(res_url_i)
f = open("./111/%s.jpg"%res_url_name1,"wb")
print("%s.jpg" % res_url_name1 + "下载成功!!!")
f.write(image_url.content)
f.close()
完整代码如下:
import requests
import re
# 循环爬取前2页的页面
for i in range(1,2):
url = "https://sc.chinaz.com/tupian/index.html" # 网站地址
if i ==1:
url = "https://sc.chinaz.com/tupian/index.html"#网站地址
else:
url = "https://sc.chinaz.com/tupian/index_%s.html" %i
# #获取页面
res = requests.get(url)
res.encoding = res.apparent_encoding# 自适应字符编码设置
# 提取页面中每个图片对应的详情页的地址 正则 列表
res_url_i=re.findall('<img src2="(.*?)" alt=".*?">',res.text)
res_url_name = re.findall('<img src2=".*?" alt="(.*?)">',res.text)
for res_url_i1, res_url_name1 in zip(res_url_i, res_url_name):
res_url_i = "https:" + res_url_i1
image_url = requests.get(res_url_i)
f = open("./111/%s.jpg"%res_url_name1,"wb")
print("%s.jpg" % res_url_name1 + "下载成功!!!")
f.write(image_url.content)
f.close()
提示:
每个网页地址不一样,正则表达式也不一样,文件操作地址也不一样,我的仅供参考,不要完成相信
最新文章
- WCF学习之旅—实现REST服务(二十二)
- Zygote进程【3】——SystemServer的诞生
- Java 线程 — synchronized、volatile、锁
- SQL Server 2008中SQL增强之三:Merge(在一条语句中使用Insert,Update,Delete) 一条语句实现两表同步(添加、删除、修改)
- MVC 授权过滤器 AuthorizeAttribute
- poj 3259(bellman最短路径)
- VB.Net出口Excel原则
- SQL点滴7—使用SQL Server的attach功能出现错误及解决方法
- CentOS安装配置Tomcat7
- 自动化测试-Selenium家谱介绍
- 2018/12/19 20:55:58 螺纹钢豆粕PTA
- Nginx配置基于ip的虚拟主机
- uboot mmc read/write命令用法
- scala -- 递归 实现 斐波那契函数
- Spring Boot&mdash;06集成前端模板thymeleaf
- Selenium WebDriver 中鼠标和键盘事件分析及扩展(转)
- 配置MySQL接受远程登录连接
- Mac环境下终端(Terminal)用ssh 连接服务器问题 Received disconnect from 120.55.x.x: 2: Too many authentication failures for root
- 第18章-使用WebSocket和STOMP实现消息功能
- UVA - 1606 Amphiphilic Carbon Molecules (计算几何,扫描法)
热门文章
- HDU3506 Monkey Party (区间DP)
- C++运算符重载(简单易懂)
- 什么是Scrum?Scrum的核心要点和精髓
- Vue学习之--------深入理解Vuex之多组件共享数据(2022/9/4)
- Vue学习之--------Vue中过滤器(filters)的使用(代码实现)(2022/7/18)
- JUC(1)线程和进程、并发和并行、线程的状态、lock锁、生产者和消费者问题
- 优雅处理Golang中的异常
- Python基础部分:9、数据的类型和内置方法
- ARM TrustZone白皮书部分阅读
- pinpoint:查看hbase表和修改数据过期时间