python 获取一个网页里的a 标签
2024-09-01 16:12:13
#!/usr/bin/python
# -*- coding: utf-8 -*-
#encoding=utf-8
#Filename:urllib2-header.py
import re
import urllib2
import sys
url= "http://www.jb51.net"
send_headers = {
'Host':'www.jb51.net',
'User-Agent':'Mozilla/5.0 (Windows NT 6.2; rv:16.0) Gecko/20100101 Firefox/16.0',
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Connection':'keep-alive'
}
req = urllib2.Request(url,headers=send_headers)
r = urllib2.urlopen(req)
html = r.read().replace(" ","")
urls=re.findall(r"<a.*?href=.*?<\/a>",html,re.I)
for i in urls:
print i
最新文章
- javascript 全局对象--w3school
- jQuery ClockPicker 圆形时钟
- .NET跨平台实践:用C#开发Linux守护进程
- js冒泡排序与二分法查找
- HTML静态网页 图片热点、框架、表单
- SURF算法与源码分析、下
- JS获取年月日
- JS单元测试框架:QUnit
- OSGI在Eclipse中执行-console出错的问题
- Python之路,Day12 - 那就做个堡垒机吧
- iOS中不透明度的查看
- 谈一谈第九届移动互联网开发者大会( MDCon 2016 )
- 电子工程师名片——FAT16文件系统(转)
- 数据分析---《Python for Data Analysis》学习笔记【03】
- Python -- tabulate 模块,
- entry points
- React文档(五)组件和props
- 1月第2周业务风控关注|“扫黄打非”部门查处互动作业、纳米盒等20多个学习类App
- ie11中报SCRIPT1003: 缺少 &#39;:&#39;的错误?
- 【Java知识点专项练习】之 volatile 关键字的功能