使用selenium实现站长素材图片采集
2024-09-01 15:27:51
from selenium import webdriver
import requests,os
from lxml import etree
from selenium.webdriver.chrome.options import Options
from urllib import request chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu') #跳过视图界面 pro = webdriver.Chrome(executable_path='./chromedriver.exe',options=chrome_options) url = "http://sc.chinaz.com/tupian/haiyangshengwutupian.html"
pro.get(url)
js = 'window.scrollTo(0,document.body.scrollHeight)'
pro.execute_script(js)
page_text = pro.page_source tree = etree.HTML(page_text)
url_img = tree.xpath('//div[@id="container"]/div[@class="box picblock col3 masonry-brick"]/div/a/img/@src') #获取图片url列表
names = tree.xpath('//div[@id="container"]/div[@class="box picblock col3 masonry-brick"]/div/a/@alt') #图片名称列表 if not os.path.exists('./img'): #生成文件夹
os.mkdir('./img')
for index,url in enumerate(url_img):
img_path = './img/' + names[index]+'.jpg' #提取图片名称
request.urlretrieve(url,img_path)
最新文章
- DTO – 服务实现中的核心数据
- git 查看某文件的修改历史
- QTreeWidget创建
- 清除mac os svn密码命令行缓存
- checkbox判断选中
- URAL 1072 Routing(最短路)
- hibernate添加spring 事务管理注意问题记录
- 设计模式 -->; (15)职责链模式
- ubuntu1604使用源码方式安装ruby2.5.0
- SQL反模式学习笔记4 建立主键规范【需要ID】
- 计算机图形学----基于3D图形开发技术 (韩正贤 著)
- Android取得系统时间
- 初次接触OSSEC
- PHP时间戳和日期转换
- 解决mybatis报错Result Maps collection does not contain value for java.lang.Integer
- mysql完整版
- ul>;li中自定义属性后取值的问题
- Google maps API
- Delphi 设置时间格式
- Java设计模式(Design Patterns)——可复用面向对象软件的基础