python爬取商品信息
2024-10-13 16:05:40
老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。
需求:某网的商品信息,包括商品名,市场价和售价
工具:python2.7.8,urllib2,re
#coding = utf-8 import urllib2
import re path = "aaa.txt"
f = open(path, 'w+') for i in range(4980, 4991):
print i # get webpage content
url = "http://*" + str(i) + "*"
page = urllib2.urlopen(url).read() # Regular matching
matchTitle = re.search(r'<dt>(.*?)</dt>', page)
matchMarketPrice = re.search(r'<del.*?>(.*?)</del>', page)
matchCurrentPrice = re.search(r'<b>(.*?)</b>', page) # save result
if matchTitle and matchMarketPrice and matchCurrentPrice:
f.write(matchTitle.group(1) + '\t' + matchMarketPrice.group(1) + '\t' + matchCurrentPrice.group(1) + '\n')
f.close()
部分结果显示:
欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00
欧莱雅复颜洁面乳125ml ¥130.00 105.00
欧莱雅复颜抗皱紧致滋润眼霜15ml ¥210.00 179.00
欧莱雅复颜清漾柔肤水175ml ¥160.00 138.00
最新文章
- 开窗函数 --over()
- 解决adb server端口被占用的问题
- 奇怪的float
- 给uefi引导的方式安装archlinux
- PHP伪静态与短链接
- Windows2008RT搭建VPN服务器
- c语言中逗号运算符和逗号表达式
- JVM保证线程安全
- Django+xadmin打造在线教育平台(三)
- CentOS6 上OpenWRT交叉编译
- JavaScript的数组和循环
- C# 使用System.Speech 进行语音播报和识别
- Replication基础(六) 复制中的三个线程(IO/SQL/Dump)
- Handler消息处理机制详解
- ZOJ 3987 Numbers(Java枚举)
- ES6 开发常用新特性以及简述ES7
- 怎么用JavaScript写一个区块链?
- 开发环境运行正常,发布服务器后提示HTTP 错误 403.14 - Forbidden
- Head First Python学习笔记1
- fiddler自动保存请求报文