最简单的爬取网页找有用信息,难点应该是正则锁定有用信息部分,看了一些其他大神的正则,最后还是决定按照自己理解写一个,果然我头脑相对简单,写出来的粗糙而易理解,也完成了自己想要的需求,就这样了~

# -*- coding:utf-8 -*-
import urllib
import urllib2
import re

page=1
url='http://www.qiushibaike.com/hot/page/'+str(page)
user_agent='Mozilla/4.0 (compatiable; MSIE 5.5; Windows NT)'
headers={'User-Agent':user_agent}
try:
  request=urllib2.Request(url,headers=headers)
  response=urllib2.urlopen(request)
  content= response.read().decode('utf-8')
  pattern=re.compile('<span>(.*?)</span>',re.S)

  items=re.findall(pattern,content)

  for item in items:
    print item

except urllib2.URLError as e:
  if hasattr(e,"code"):
    print e.code
  if hasattr(e,"reason"):
    print e.reason

最新文章

  1. cpp项目的组织
  2. form、iframe实现异步上传文件
  3. C#中事件的继承
  4. chrome 41 空格 &amp;nbsp;
  5. Android用户界面布局(layouts)
  6. MySQL CURDATE() 函数
  7. git 命令整理
  8. (转载)linux那点事儿(上)
  9. Multiplepack coming~^.^
  10. Oracle 去掉重复字符串
  11. STM32按键控制程序
  12. Playground中格式注释语法
  13. 关于BI商业智能的“8大问”|一文读懂大数据BI
  14. SQLite中的事务操作
  15. TJson.format() 输出错误的CRLF
  16. 使用 RamMap 清理内存 How to Use RamMap to Empty System Working Set
  17. IntelliJ IDEA使用技巧一览表
  18. 004 --Mysql中的锁的问题
  19. sdut2852 小鑫去爬山9dp入门)
  20. 随机抽样一致性算法(RANSAC)转载

热门文章

  1. 系统剪切板的使用UIPasteboard
  2. mac无法使用80端口问题
  3. c# 关闭socket的标准方法
  4. OpenID Connect Core 1.0(二)ID Token
  5. Oracle记录类型(record)和%rowtype
  6. activemq整合springboot使用(个人微信小程序用)
  7. 【HDOJ 1285】确定比赛名次(拓扑排序+优先队列)
  8. 判断ARP欺骗
  9. Eclipse易卡死
  10. AML与PIO整合问题