#coding:utf-8
#author:Blood_Zero '''
1、获取网页信息
2、解决编码问题,通过charset库(默认不安装这个库文件)
'''
import urllib
import urllib2 url = "http://192.168.1.135/myself/"
html = urllib.urlopen(url)
content = html.read()
print content
#如果网页中存在其他编码,就会出现乱码
#print content.decode('gbk').encode('utf-8') '''
简易获取网页信息
'''
#获取当前url
print "当前URL:"+str(html.geturl()) #网页状态码
print "当前状态码:"+str(html.code)
#print "当前状态码:"+str(html.getcode()) #网站头信息
print "当前头信息:\n"+str(html.headers)
#print "当前头信息:\n"+str(html.info()) #获取网站编码
print "当前网站使用编码:"+str(html.info().getparam("charset")) #下载网页源码
urllib.urlretrieve(url,"E:\\Python_Code\\pyTools\\url.txt") '''
模拟浏览器访问网址
'''
#方法一
req=urllib2.Request(url)
# 添加头信息
req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.2; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0")
req.add_header("Get",url)
req.add_header("Host","192.168.1.135") new_html = urllib2.urlopen(req)
print new_html.read()
print req.headers.items() #方法二
myheader={
"User-Agent":"Mozilla/5.0 (Windows NT 6.2; WOW64; rv:39.0) Gecko/20100101 Firefox/39.0",
"Host":"192.168.1.135",
"Get":url
}
req1 = urllib2.Request(url,headers=myheader)
new_html_1 = urllib2.urlopen(req1)
print new_html_1.read()
print req1.headers.items() '''
在网页中查询指定文件
'''
def get_content(url):
html = urllib.urlopen(url)
content = html.read()
html.close()
return content def get_file(self):
#匹配php文件
regex = r'a href=(.+?\.php)'
pat=re.compile(regex) file_code = re.findall(pat,self)
print str(file_code)+"\n" info = get_content("http://192.168.1.135/myself/SQL_Injection/")
get_file(info)

最新文章

  1. android 项目中出现红色感叹号的解决方法
  2. 尚学堂Spring视频教程(六):AOP Annotation
  3. 【转】Yeoman自动构建 Angularjs 项目
  4. ACM训练计划建议(写给本校acmer,欢迎围观和指正)
  5. WCF 异步调用问题
  6. C++ Lambda表达式用法
  7. C# WPF 连接数据库Sqlhelper类
  8. JavaScript(20)jQuery HTML 加入和删除元素
  9. 新安装Eclipse后的一些配置
  10. shell中exec解析(转)
  11. PHP实现快速排序算法
  12. Codeforces 474 E. Pillars
  13. MySQL(Navicat)运行.sql文件时报错[Err] 2006 - MySQL server has gone away 的解决方法
  14. 我的AngularJS学习轨迹
  15. 关于String的一些基础小题目
  16. TCP/IP协议 网络层
  17. SharePoint 2013 报错 异常来自 HRESULT:0X80131904
  18. Linux 使用 mail 发送邮件
  19. IE浏览器中的加载项怎么删除
  20. 基础知识(09) -- Spring 概述

热门文章

  1. BZOJ4551[Tjoi2016&Heoi2016]树——dfs序+线段树/树链剖分+线段树
  2. BZOJ4808马——二分图最大独立集
  3. windows service 安装/卸载
  4. 快乐的Lambda表达式(一)
  5. python构建bp神经网络_曲线拟合(一个隐藏层)__2.代码实现
  6. 自学Zabbix12.4 Zabbix命令-zabbix_sender
  7. [UVALive 3661] Animal Run
  8. can总线的示波器检测方法
  9. Druid 配置及内置监控,Web页面查看监控内容
  10. laravel/lumen 的构造函数需要注意的地方