爬取简书图片(使用BeautifulSoup)
2024-10-08 01:25:20
import requests
from bs4 import BeautifulSoup
url_list = []
kv = {'User-Agent':'Mozilla/5.0'}
r = requests.get('https://www.jianshu.com/p/42df25cfc1ec',timeout=30,headers = kv)
# print(r.request.headers)
dome = r.text
soup = BeautifulSoup(dome,'html.parser')
# print(soup.prettify())
img_ = soup.find_all('img')
for i in img_:
# print(i.get('src'))
if i.get('data-original-src') != '//cdn2.jianshu.io/assets/web/nav-logo-4c7bbafe27adc892f3046e6978459bac.png' and i.get('data-original-src') != None:
url_list.append(i.get('data-original-src'))
for i in url_list:
image_name = i.split('/')[-1]
response = requests.get(f'https:{i}')
image_data = response.content
with open(f"./image/{image_name}",'wb') as fw:
fw.write(image_data)
最新文章
- Handler系列之创建子线程Handler
- 移动端web开发 问题
- SublimeText为啥选择Python开发extension
- Mybatis3+Spring4+SpringMVC4 整合
- sql2012安装过程中出现个一个问题
- 设置(TableViewController)通用框架
- cache—主存—辅存三级调度模拟
- iOS-网络编程(一)HTTP协议
- Struts2注解学习1
- ACM比赛(第二次A)
- 如何使用 iOS 7 的 AVSpeechSynthesizer 国家有声读物(4)
- 【OpenMesh】使用迭代器和循环机
- Equilibrium point
- Windows平台下的内存泄漏检测
- awk 计算某一列的和
- Python常见的问题
- tp5的phpword使用
- 使用go-template自定义kubectl get输出
- C# FTP操作类的代码
- 自学自用 = B站(操作系统_清华大学(向勇、陈渝)) 未完待续。。
热门文章
- 几何+map套set——cf1163C
- Python3.6爬虫+Djiago2.0+Mysql --数据爬取
- pyqt点击右上角关闭界面但是子线程仍在运行
- (转)第02节:在Canvas上画简单的图形
- memcached 技术支持
- Java-MyBatis-MyBatis3-XML映射文件:insert, update 和 delete
- Netty SimpleChannelInboundHandler和ChannelInboundHandler区别
- vue 模版组件用法
- java 模拟简单搜索
- AtCoder - 3959