爬取百度贴吧的图片

分析贴吧源代码,图片所在位置是:<img class="BDE_Image" src=“。。。。。。。.jpg” pic_ext。。。。。

所以正则匹配是:

r'BDE_Image" src="(.+?\.jpg)" pic_ext'

(注:?表示懒惰匹配,如果不加?会造成匹配到一个"BDE_Image" src=“起始到网页最后一个pic_ext结束的一个串。

()表示所要提取的字符串,即。。。。.jpg

代码如下:

#!usr/bin/env python
# coding: utf-8 import os
import re
import urllib def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html def getImages(html):
reg = r'BDE_Image" src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imgList = imgre.findall(html)
print 'We have got %d pictures' % len(imgList)
path = './download'
x = 0
for imgurl in imgList:
FileName = os.path.join(path, '%s.jpg' % (x+1))
urllib.urlretrieve(imgurl,FileName)
print '%s.jpg is done.' % (x+1)
x = x + 1 if __name__ == '__main__':
url = raw_input('input the URL:>')
html = getHtml(url)
getImages(html)

还是最为基础的功能。

最新文章

  1. Android压缩图片到100K以下并保持不失真的高效方法
  2. js中的延迟执行和定时执行
  3. json注入
  4. python 冒泡排序
  5. 50分钟学会Laravel 50个小技巧
  6. 求相同号码一天内的上网流量——mapreduce
  7. MySQL 5.6.21 最新版的安装
  8. 关于XML文档的讲解
  9. 【制作镜像Win*】环境准备
  10. C/C++ 开源库及示例代码
  11. ARGB和RGB
  12. IOS开发中使用AFNetworking请求网络数据
  13. 一步一步学MySQL-日志文件
  14. python 调用 R,使用rpy2
  15. java socket 模拟im 即时通讯
  16. 剑指架构师系列-MySQL常用SQL语句
  17. js 百度地图定位
  18. node 创建server 及加载静态页面
  19. 对数据进行GZIP压缩或解压缩
  20. go get 碰壁怎么办?

热门文章

  1. [pod install] error: cannot open .git/FETCH_HEAD: Permission denied
  2. phpnow下mysqli加载不了的问题
  3. hdoj 2087 剪花布条
  4. [置顶] 分析Java死锁:分析jstack日志
  5. Java NIO使用及原理分析(三)
  6. Jsp学习(2)
  7. 20169210《Linux内核原理与分析》第八周作业
  8. 加速数组操作(Array)
  9. jquery validate.js表单验证的基本用法入门
  10. Lua 5.2 中文参考手册