import urllib.request
import os
from urllib import error
import re
import base64 def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0')
try:
response = urllib.request.urlopen(req)
except error.HTTPError:
print("有异常的url为:" + url)
return ""
else:
html = response.read()
return html def get_page(url):
if url != "":
html = url_open(url).decode('utf-8')
a = html.find('current-comment-page') + 23
b = html.find(']',a)
return html[a:b] def find_image(url):
image_addrs = []
html = url_open(url).decode('utf-8')
reg = r'class="img-hash">(.+)</span>' # 正则表达式
src_img = re.compile(reg)
image_addrs_base64 = src_img.findall(html)
for s in image_addrs_base64:
image_addrs.append("http:"+ str(base64.b64decode(s).decode('utf-8')))#图片地址是用base64加密
return image_addrs def save_image(image_addrs):
for each in image_addrs:
filename = each.split('/')[-1]
with open("picture/"+filename,'wb') as f:
img = url_open(each)
f.write(img) def download_girls(pages = 20):
url = 'http://jandan.net/ooxx/'
page_num = int(get_page(url))
for i in range(pages):
page_num -= 1
page_url = url + 'page-' + str(page_num) + '#comments'
image_addrs = find_image(page_url)
save_image(image_addrs) if __name__ == '__main__':
download_girls() print("执行结束")

最新文章

  1. SQL SERVER四舍五入你除了用ROUND还有其他方法吗?
  2. 【工作笔记】BAT批处理学习笔记与示例
  3. linux 查看剩余内存数
  4. curl的POST与GET方法
  5. clipToBounds
  6. 从底层理解Python的执行
  7. House Robber II
  8. CUICatalog: Invalid asset name supplied: (null)
  9. python 自定义信号处理器
  10. 设置TrackMouseEvent捕获WM_MOUSEHOVER和WM_MOUSELEAVE消息
  11. SimpleCursorAdapter使用代码
  12. E - Just a Hook HDU - 1698 线段树区间修改区间和模版题
  13. 修改idea打开新窗口的默认配置
  14. 【Vue.js实战案例】- Vue.js递归组件实现组织架构树和选人功能
  15. Windows Phone本地数据库(SQLCE):3、[table]attribute(翻译) (转)
  16. 使用web.xml方式加载Spring时,获取Spring context的两种方式
  17. 本地YUM仓库搭建实战
  18. Mysql索引学习笔记
  19. eclipse进阶功法
  20. [BZOJ1821][JSOI2010]Group 部落划分 Group 最小生成树 贪心

热门文章

  1. 【CF896E】Welcome home, Chtholly 暴力+分块+链表
  2. [APP] Android 开发笔记 002-命令行创建默认项目结构说明
  3. Adobe edge animate制作HTML5动画可视化工具(一)
  4. 洛谷P2414 阿狸的打字机【AC自动机】【fail树】【dfs序】【树状数组】
  5. 字符串匹配-KMP
  6. Python的Scikit-learn如何选择合适的机器学习算法?
  7. POJ 1815 - Friendship - [拆点最大流求最小点割集][暴力枚举求升序割点] - [Dinic算法模板 - 邻接矩阵型]
  8. JDBC及Filter
  9. FZU - 2150 Fire Game bfs+双起点枚举
  10. mvc debug无法进入controller