老严要爬某网购网站的商品信息,正好我最近在学python,就一起写了一个简单的爬虫程序。

需求:某网的商品信息,包括商品名,市场价和售价

工具:python2.7.8,urllib2,re

#coding = utf-8

import urllib2
import re path = "aaa.txt"
f = open(path, 'w+') for i in range(4980, 4991):
print i # get webpage content
url = "http://*" + str(i) + "*"
page = urllib2.urlopen(url).read() # Regular matching
matchTitle = re.search(r'<dt>(.*?)</dt>', page)
matchMarketPrice = re.search(r'<del.*?>(.*?)</del>', page)
matchCurrentPrice = re.search(r'<b>(.*?)</b>', page) # save result
if matchTitle and matchMarketPrice and matchCurrentPrice:
f.write(matchTitle.group(1) + '\t' + matchMarketPrice.group(1) + '\t' + matchCurrentPrice.group(1) + '\n')
f.close()

  部分结果显示:

欧莱雅奇焕光感粉嫩透亮修颜霜30ml ¥120.00 109.00
欧莱雅复颜洁面乳125ml ¥130.00 105.00
欧莱雅复颜抗皱紧致滋润眼霜15ml ¥210.00 179.00
欧莱雅复颜清漾柔肤水175ml ¥160.00 138.00

  

最新文章

  1. 开窗函数 --over()
  2. 解决adb server端口被占用的问题
  3. 奇怪的float
  4. 给uefi引导的方式安装archlinux
  5. PHP伪静态与短链接
  6. Windows2008RT搭建VPN服务器
  7. c语言中逗号运算符和逗号表达式
  8. JVM保证线程安全
  9. Django+xadmin打造在线教育平台(三)
  10. CentOS6 上OpenWRT交叉编译
  11. JavaScript的数组和循环
  12. C# 使用System.Speech 进行语音播报和识别
  13. Replication基础(六) 复制中的三个线程(IO/SQL/Dump)
  14. Handler消息处理机制详解
  15. ZOJ 3987 Numbers(Java枚举)
  16. ES6 开发常用新特性以及简述ES7
  17. 怎么用JavaScript写一个区块链?
  18. 开发环境运行正常,发布服务器后提示HTTP 错误 403.14 - Forbidden
  19. Head First Python学习笔记1
  20. fiddler自动保存请求报文

热门文章

  1. Windows和Ubuntu双系统
  2. [日志]logback告警
  3. maven 环境变量配置问题 cmd窗口报mvn -v不是内部或者外部的命令
  4. 盘点SQL on Hadoop中用到的主要技术
  5. 数据结构实习 - Problem N 树的括号表示法
  6. TCP状态切换流程
  7. RabbitMQ入门(2)——工作队列
  8. C#之多线程
  9. java 资源文件夹下的MEAT-INF
  10. 理解多线程管理类 CWorkQueue