一波大图来袭

  

import requests
from lxml import etree
from urllib import request
import os
import re
def parse_page(url):
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.84 Safari/537.36'
}
reponse = requests.get(url,headers=headers)
text = reponse.text
html = etree.HTML(text)
imgs = html.xpath("//div[@class='page-content text-center']//img[@class!='gif']")
for img in imgs:
img_url = img.get('data-original')
alt = img.get('alt')
alt = re.sub(r'[\?\.\/\"<>:?!,!]','',alt)
suffix = os.path.splitext(img_url)[1]
filename = alt + suffix
filename = re.sub(r'!dta', '', filename)
request.urlretrieve(img_url,'image2/'+filename)
print (filename + "完成")
def main():
os.mkdir("image2")
for x in range(1,200):
url = 'http://www.doutula.com/photo/list/?page=%d' % x
parse_page(url)
if __name__ == '__main__':
main()

最新文章

  1. PHP如何实现页面静态化
  2. box-sizing属性
  3. discuz论坛移植修改数据库配置
  4. spring java 获取webapp下文件路径
  5. [Android开发系列]IT博客应用
  6. uva 10047 The Monocycle(搜索)
  7. MIPI总结和MIPI规格说明书
  8. 条形码(JBarcode)
  9. JDK,Tomcat,myeclipse相关资料
  10. getContext在谷歌浏览器中,使用时要先加载canvas对象,否则会提示&#39;getContext is null&#39;
  11. python中的装饰器迭代器生成器
  12. yum安装软件报错Segmentation fault处理
  13. linux常用的BootLoader U-boot的前世今生
  14. SNMP基础知识
  15. 不让Editplus保存时java文件时生成.bak文件
  16. mongodb浅析
  17. 3.STM32F4按键扫描函数
  18. u-boot 编译,启动流程分析,移植
  19. gedit emacs
  20. 8 -- 深入使用Spring -- 4...2 使用AspectJ实现AOP

热门文章

  1. 设计模式08: Composite 组合模式(结构型模式)
  2. sql 与 oracle 几个简单语法差别
  3. 将“100px” 转换为100
  4. Task ContinueWith
  5. Asp.net负载均衡之Session
  6. equals hashcode toString 方法的使用
  7. Udp -内部缓冲区
  8. 【BZOJ3417】[POI2013]MOR-Tales of seafaring (最短路SPFA)
  9. springboot整合mybatis,druid,mybatis-generator插件完整版
  10. CSS column 布局总结