python 爬虫系列08-同步斗图一波
2024-09-24 22:50:29
一波大图来袭
import requests
from lxml import etree
from urllib import request
import os
import re
def parse_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
}
reponse = requests.get(url,headers=headers)
text = reponse.text
html = etree.HTML(text)
imgs = html.xpath("//div[@class='page-content text-center']//img[@class!='gif']")
for img in imgs:
img_url = img.get('data-original')
alt = img.get('alt')
alt = re.sub(r'[\?\.\/\"<>:?!,!]','',alt)
suffix = os.path.splitext(img_url)[1]
filename = alt + suffix
filename = re.sub(r'!dta', '', filename)
request.urlretrieve(img_url,'image2/'+filename)
print (filename + "完成")
def main():
os.mkdir("image2")
for x in range(1,200):
url = 'http://www.doutula.com/photo/list/?page=%d' % x
parse_page(url)
if __name__ == '__main__':
main()
最新文章
- PHP如何实现页面静态化
- box-sizing属性
- discuz论坛移植修改数据库配置
- spring java 获取webapp下文件路径
- [Android开发系列]IT博客应用
- uva 10047 The Monocycle(搜索)
- MIPI总结和MIPI规格说明书
- 条形码(JBarcode)
- JDK,Tomcat,myeclipse相关资料
- getContext在谷歌浏览器中,使用时要先加载canvas对象,否则会提示&#39;getContext is null&#39;
- python中的装饰器迭代器生成器
- yum安装软件报错Segmentation fault处理
- linux常用的BootLoader U-boot的前世今生
- SNMP基础知识
- 不让Editplus保存时java文件时生成.bak文件
- mongodb浅析
- 3.STM32F4按键扫描函数
- u-boot 编译,启动流程分析,移植
- gedit emacs
- 8 -- 深入使用Spring -- 4...2 使用AspectJ实现AOP
热门文章
- 设计模式08: Composite 组合模式(结构型模式)
- sql 与 oracle 几个简单语法差别
- 将“100px” 转换为100
- Task ContinueWith
- Asp.net负载均衡之Session
- equals hashcode toString 方法的使用
- Udp -内部缓冲区
- 【BZOJ3417】[POI2013]MOR-Tales of seafaring (最短路SPFA)
- springboot整合mybatis,druid,mybatis-generator插件完整版
- CSS column 布局总结