33行代码爬取妹子图片(bs4+urllib)
2024-09-01 04:06:53
from bs4 import BeautifulSoup
import urllib2
import urllib
import lxml
import os def get_imgs():
image_couter = 1
for i in range(1,20):
url='http://www.tu11.com/xingganmeinvxiezhen/list_1_'+str(i)+".html"
req=urllib2.Request(url)
res=urllib2.urlopen(req) html_soup = BeautifulSoup(res, 'lxml')
all_img_links=html_soup.find_all("img")
print(all_img_links)
#指定文件路径
path = os.getcwd()
new_path = os.path.join(path,"pictures")
if not os.path.isdir(new_path):
os.mkdir(new_path)
new_path += "/"
#下载图片 for img_link in all_img_links:
file_name='%s.jpg'%image_couter
img_url= img_link["src"]
urllib.urlretrieve(img_url,new_path+file_name)
image_couter +=1
#思路:用lxml解析域名,用urllib2的urlopen函数和find_all()获取图片的地址
urllib.urlretrieve()函数的传入url和文件名称加文件位置
用os定义设置一个文件再通过urlretrieve()导入
利用for循环实现翻页
成果展示:
最新文章
- Percona TokuDB
- SQL Server启动的几种方法
- java 使用正则表达式过滤HTML中标签
- js api 实现钉钉免登
- mysql主从数据库不同步的2种解决方法(转)
- 断言(ASSERT)的用法
- Foreman--Puppet类导入
- C#入门经典(第五版)学习笔记(三)
- soapUI通过groovy脚本设置超时时间
- 物理机与虚拟机IP互ping通,而互ping主机名不通
- 【Chromium中文文档】Profile架构(看看谷歌家的重构)
- cpp(第十一章)
- linux添加swap分区【转】
- C#获取类名为Internet_Explorer_Server控件的内容
- ubuntu14.04 中virtual box 加入 usb
- javascript作用域、闭包、对象与原型链
- 第一个springMVC小程序
- Interactive Reporting , SQL*Net not loaded successfully 问题的解决。
- centos7启动顺序加密的问题
- 10.openldap备份与恢复
热门文章
- windows安装TensorFlow和Keras遇到的问题及其解决方法
- epoll使用详解:epoll_create、epoll_ctl、epoll_wait、close
- GoLand Active Code
- os.path.join路径拼接的问题
- SQL Server 2016 + AlwaysOn 无域集群
- 关于String重写的hashcode的代码分析
- java Springboot 生成 二维码 +logo
- VS2012-SSAS 表格模型安全性
- c++小游戏——职业战争
- 个人永久性免费-Excel催化剂功能第55波-Excel批注相关的批量删除作者、提取所有批注信息等