python 爬虫煎蛋网
2024-08-24 06:24:06
import urllib.request
import os
from urllib import error
import re
import base64 def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0')
try:
response = urllib.request.urlopen(req)
except error.HTTPError:
print("有异常的url为:" + url)
return ""
else:
html = response.read()
return html def get_page(url):
if url != "":
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page') + 23
b = html.find(']',a)
return html[a:b] def find_image(url):
image_addrs = []
html = url_open(url).decode('utf-8')
reg = r'class="img-hash">(.+)</span>' # 正则表达式
src_img = re.compile(reg)
image_addrs_base64 = src_img.findall(html)
for s in image_addrs_base64:
image_addrs.append("http:"+ str(base64.b64decode(s).decode('utf-8')))#图片地址是用base64加密
return image_addrs def save_image(image_addrs):
for each in image_addrs:
filename = each.split('/')[-1]
with open("picture/"+filename,'wb') as f:
img = url_open(each)
f.write(img) def download_girls(pages = 20):
url = 'http://jandan.net/ooxx/'
page_num = int(get_page(url))
for i in range(pages):
page_num -= 1
page_url = url + 'page-' + str(page_num) + '#comments'
image_addrs = find_image(page_url)
save_image(image_addrs) if __name__ == '__main__':
download_girls() print("执行结束")
最新文章
- SQL SERVER四舍五入你除了用ROUND还有其他方法吗?
- 【工作笔记】BAT批处理学习笔记与示例
- linux 查看剩余内存数
- curl的POST与GET方法
- clipToBounds
- 从底层理解Python的执行
- House Robber II
- CUICatalog: Invalid asset name supplied: (null)
- python 自定义信号处理器
- 设置TrackMouseEvent捕获WM_MOUSEHOVER和WM_MOUSELEAVE消息
- SimpleCursorAdapter使用代码
- E - Just a Hook HDU - 1698 线段树区间修改区间和模版题
- 修改idea打开新窗口的默认配置
- 【Vue.js实战案例】- Vue.js递归组件实现组织架构树和选人功能
- Windows Phone本地数据库(SQLCE):3、[table]attribute(翻译) (转)
- 使用web.xml方式加载Spring时,获取Spring context的两种方式
- 本地YUM仓库搭建实战
- Mysql索引学习笔记
- eclipse进阶功法
- [BZOJ1821][JSOI2010]Group 部落划分 Group 最小生成树 贪心
热门文章
- 【CF896E】Welcome home, Chtholly 暴力+分块+链表
- [APP] Android 开发笔记 002-命令行创建默认项目结构说明
- Adobe edge animate制作HTML5动画可视化工具(一)
- 洛谷P2414 阿狸的打字机【AC自动机】【fail树】【dfs序】【树状数组】
- 字符串匹配-KMP
- Python的Scikit-learn如何选择合适的机器学习算法?
- POJ 1815 - Friendship - [拆点最大流求最小点割集][暴力枚举求升序割点] - [Dinic算法模板 - 邻接矩阵型]
- JDBC及Filter
- FZU - 2150 Fire Game bfs+双起点枚举
- mvc debug无法进入controller