爬虫 spider
2024-09-06 09:07:27
python 2.x
# -*- coding: utf-8 -*-
import re
import urllib url = 'http://tieba.baidu.com/p/4872795764'
page = urllib.urlopen(url)
html = page.read() r = 'src="(.*?\.jpg)" size' # 注意此处?的作用,取消贪婪匹配 结合findall方法,只匹配分组中的内容
imgre = re.compile(r)
imglist = re.findall(imgre, html) count = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl, filename='mac_book Pro %s.jpg' % count)
count += 1 函数: def gethtml(url):
html = urllib.urlopen(url).read()
return html def getimg(html):
r = 'src="(.*?\.jpg)" size'
imgre = re.compile(r)
imglist = re.findall(imgre, html)
print imglist
count = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl, filename='mac_book_Pro_%s.jpg' % count)
count += 1
html = gethtml('http://tieba.baidu.com/p/4872795764')
getimg(html)
最新文章
- ORA-04091: table is mutating, trigger/function may not see it
- linux 用户创建、管理、权限分配
- oracle 存储过程小总结
- 博客已经转移到http://geekori.cn,本博客不再更新
- 在一般处理文件中访问Session需要添加IRequiresSessionState(转载)
- css修改,类似elememt.style样式修改
- maven&;&;gradle
- 让IE6下支持固定定位
- Nginx NLB 及Redis学习
- 阿里巴巴集团2013实习生招聘技术类笔试题(B)
- GDAL1.11版本号对SHP文件索引加速測试
- ubuntu14.04 Markdown编辑器推荐之Remarkable
- 英语学习/词典app行业top5简要分析
- C# Redis学习系列三:Redis配置主从
- React组件设计
- BZOJ2212 [POI2011] Tree Rotations 【treap】
- Qt+QGis二次开发:加载栅格图层和矢量图层
- mysql存储过程游标嵌套循环
- RabbitMQ 设置消息的TTL(过期时间)
- git error: failed to push some refs to...
热门文章
- Android下的Handler
- 了解.net mvc实现原理ActionResult/View
- 方法return外部链接
- webAPI 405
- busybox下inittab中runlevel解析
- PHP里的socket_recv方法解释
- 函数柯里化常见应用---add(1,2) add(1)(2) add(1)(2)(3) add(1,2,3)(4)
- 4 Values whose Sum is 0(二分)
- RMQ with Shifts(线段树)
- tomcat 编码问题