爬虫——URL模块爬取糗事百科段子
2024-10-20 03:49:04
最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~
# -*- coding:utf-8 -*-
import urllib
import urllib2
import re
page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent='Mozilla/4.0 (compatiable; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent}
try:
request=urllib2.Request(url,headers=headers)
response=urllib2.urlopen(request)
content= response.read().decode('utf-8')
pattern=re.compile('<span>(.*?)</span>',re.S)
items=re.findall(pattern,content)
for item in items:
print item
except urllib2.URLError as e:
if hasattr(e,"code"):
print e.code
if hasattr(e,"reason"):
print e.reason
最新文章
- cpp项目的组织
- form、iframe实现异步上传文件
- C#中事件的继承
- chrome 41 空格 &;nbsp;
- Android用户界面布局(layouts)
- MySQL CURDATE() 函数
- git 命令整理
- (转载)linux那点事儿(上)
- Multiplepack coming~^.^
- Oracle 去掉重复字符串
- STM32按键控制程序
- Playground中格式注释语法
- 关于BI商业智能的“8大问”|一文读懂大数据BI
- SQLite中的事务操作
- TJson.format() 输出错误的CRLF
- 使用 RamMap 清理内存 How to Use RamMap to Empty System Working Set
- IntelliJ IDEA使用技巧一览表
- 004 --Mysql中的锁的问题
- sdut2852 小鑫去爬山9dp入门)
- 随机抽样一致性算法(RANSAC)转载