# -*- coding: UTF-8 -*-
from HTMLParser import HTMLParser
import sys,urllib2,string,re,json reload(sys)
sys.setdefaultencoding('utf-8') class hp(HTMLParser): def __init__(self):
self.readingdata_a = False
self.title = []
self.usite = []
HTMLParser.__init__(self) def handle_starttag(self,tag,attrs):
#print tag
if tag == 'a':for h,v in attrs:
if v == 'entrylistItemTitle':
self.readingdata_a = True
self.usite.append(attrs[2][1]) def handle_data(self,data):
if self.readingdata_a:
self.title.append(data) def handle_endtag(self,tag):
if tag == 'a':
self.readingdata_a = False def getdata(self):
#return zip(self.title,self.usite) 通过zip函数将其一对一合并为tuple i=0
listr = []
while i<len(self.title):
listr.append(self.title[i] +' : '+self.usite[i])
i=i+1
return listr url='http://www.cnblogs.com/dreamer-fish/archive/2016/03.html'
request = urllib2.Request(url)
response = urllib2.urlopen(request).read() yk=hp()
yk.feed(response)
dd = yk.getdata() for i in dd:
print i yk.close

结果:

最新文章

  1. linux命令(7):mv命令
  2. windowsAzure模拟器错误
  3. 转: MySQL 赋予用户权限(grant %-远程和localhost-本地区别)
  4. jquery简单笔记(1) - 基础记录
  5. define 实例
  6. String中重要方法与字段
  7. 【HDOJ】4351 Digital root
  8. 1 前言:WPF之What&amp;Why
  9. linux 内核驱动加载过程中 向文件系统中的文件进行读写操作
  10. 关于.net 对excel操作的方法
  11. Delphi Socket的最好项目——FastMsg IM(还有一些IM控件),RTC,RO,Sparkle等等,FileZilla Client/Server,wireshark,NSClient
  12. (二)文档请求不同源之window.name跨域
  13. ES6多层解构
  14. Python 内编写类的各种技巧和方法
  15. 面图层拓扑检查和错误自动修改—ArcGIS案例学习笔记
  16. js iterable类型
  17. 如何获取SQL中Print语句输出内容
  18. JavaScript -- Math
  19. 前端常用linux命令
  20. 洛谷P1486 [NOI2004]郁闷的出纳员(splay)

热门文章

  1. TCP连接、Http连接与Socket连接
  2. CC2530自动安全联网
  3. 问题集录--从初级java程序员到架构师,从小工到专家
  4. readtimeout
  5. [转]wx.getUserInfo(OBJECT) 微信小程序 获取用户信息
  6. ubuntu上使用vim编辑文本内容
  7. 数组的strong copy理解
  8. element ui 时间控件 多个日期
  9. 由Leetcode详解算法 之 动态规划(DP)
  10. java图形用户界面之列表框