python小爬虫【1】
2024-08-25 00:04:47
爬取百度贴吧的图片
分析贴吧源代码,图片所在位置是:<img class="BDE_Image" src=“。。。。。。。.jpg” pic_ext。。。。。
所以正则匹配是:
r'BDE_Image" src="(.+?\.jpg)" pic_ext'
(注:?表示懒惰匹配,如果不加?会造成匹配到一个"BDE_Image" src=“起始到网页最后一个pic_ext结束的一个串。
()表示所要提取的字符串,即。。。。.jpg
)
代码如下:
#!usr/bin/env python
# coding: utf-8 import os
import re
import urllib def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
page.close()
return html def getImages(html):
reg = r'BDE_Image" src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imgList = imgre.findall(html)
print 'We have got %d pictures' % len(imgList)
path = './download'
x = 0
for imgurl in imgList:
FileName = os.path.join(path, '%s.jpg' % (x+1))
urllib.urlretrieve(imgurl,FileName)
print '%s.jpg is done.' % (x+1)
x = x + 1 if __name__ == '__main__':
url = raw_input('input the URL:>')
html = getHtml(url)
getImages(html)
还是最为基础的功能。
最新文章
- Android压缩图片到100K以下并保持不失真的高效方法
- js中的延迟执行和定时执行
- json注入
- python 冒泡排序
- 50分钟学会Laravel 50个小技巧
- 求相同号码一天内的上网流量——mapreduce
- MySQL 5.6.21 最新版的安装
- 关于XML文档的讲解
- 【制作镜像Win*】环境准备
- C/C++ 开源库及示例代码
- ARGB和RGB
- IOS开发中使用AFNetworking请求网络数据
- 一步一步学MySQL-日志文件
- python 调用 R,使用rpy2
- java socket 模拟im 即时通讯
- 剑指架构师系列-MySQL常用SQL语句
- js 百度地图定位
- node 创建server 及加载静态页面
- 对数据进行GZIP压缩或解压缩
- go get 碰壁怎么办?
热门文章
- [pod install] error: cannot open .git/FETCH_HEAD: Permission denied
- phpnow下mysqli加载不了的问题
- hdoj 2087 剪花布条
- [置顶] 分析Java死锁:分析jstack日志
- Java NIO使用及原理分析(三)
- Jsp学习(2)
- 20169210《Linux内核原理与分析》第八周作业
- 加速数组操作(Array)
- jquery validate.js表单验证的基本用法入门
- Lua 5.2 中文参考手册