一 、爬虫的认识与http
2024-09-01 22:01:34
一 、爬虫的认识与http
互联网应用架构
一般采用c/s架构,b/s架构或者m/s架构
c/s 即 client server 客户端 服务端
b/s 即 browser server 浏览器 服务端
m/s 即 moblie server 移动端 服务端
爬虫的概念
网络爬虫也叫网络蜘蛛,它特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。
更加专业和全面对的定义是:网络爬虫是伪装成客户端与服务端进行数据交互的程序。
爬虫的应用
数据采集
大数据时代来临,数据就是核心,数据就是生产力,越来越多的企业开始注重收集用户数据,而爬虫技术是收集数据的一种重要手段。
搜索引擎
百度,谷歌等搜索引擎都是基于爬虫技术。
模拟操作
爬虫也被广泛用于模拟用户操作,测试机器人,灌水机器人等。
请求与响应
请求(request):客户端(应用程序)/chrome 向服务端发送请求
响应(response):服务器收到请求后进行分析后将用户所需的数据返回给客户端/chrome
端口:是用来接受或发送数据
HTTP协议
http、https协议:
HTTP是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。
HTTPS(全称:Hyper Text Transfer Protocol over Secure Socket Layer 或 Hypertext Transfer Protocol Secure,超文本传输安全协议),是以安全为目标的HTTP通道,简单讲是HTTP的安全版
即HTTP下加入SSL层, 简称HTTPS
一次http请求的基本流程是由客户端向服务端发起一次请求(request), 而服务器在接收到以后返回给客户端一个响应(response)。所以一次完整的http请求包含 请求和响应 两部分
http协议是基于tcp/ip通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)通过TCP/IP通信协议来在Client和Server之间建座桥,http请求和响应就在这座桥上传递,请求和响应中包含着相关信息;
而https是在http协议的基础之上,再加上一层SSL/TLS协议,数据在传输过程中是加密(Secure)的。
http协议的默认监听端口是 80
https协议的默认端口是 443
http协议版本:目前最常用的是HTTP/1.0和HTTP/1.1;需要注意的是HTTP/1.1是长连接的;在使用socket套接字发送请后,接收求数据时容易阻塞;因此在构造报文时推荐使用HTTP/1.0
HTTP1.1默认使用长连接,可有效减少TCP的三次握手开销。
HTTP1.0是没有host域的,HTTP1.1才支持这个参数。
HTTP协议请求由什么组成?
请求行(request line)、请求头部(header)、空行和请求数据四个部分组成
区别:http是超文本传输协议,信息是明文传输,https则是具有安全性的ssl加密传输协议。
http是无状态的:无状态等同于不记录来访者的信息
服务器接收到请求后,为了记录请求方是谁,他其实可以通过set-cookie字段 返回一些特征值或有价值能够确定身份的数据,
客户端接收到响应后 浏览器会自动将set-cookie中的数据保存下来,下次请求的时候会自动的以cookie字段的形式携带在请求报文中。
session是基于cookie的;cookie是存储在客户端的数据 Session是存储在服务器上的数据
TCP建立连接需要三次握手;断开连接需要四次挥手
ssh 默认端口22(虚机机) 映射到 1234(本地)端口
端口:0~65535
公认端口(Well Known Ports):从0~1023,它们紧密绑定(binding)于一些服务。通常这些端口的通讯明确表明了某种服务的协议。例如:80端口实际上总是HTTP通讯。
而1024是动态端口的开始。
请求报文格式:
请求方法 路径 协议版本 \r\n请求头部\r\n\r\n
"GET /search/index?tn=baiduimage&word=动漫 HTTP/1.0\r\nHost: image.baidu.com\r\n\
Referer: http://www.baidu.com\r\n\r\n"
# 每加一个请求头在其后加\r\n
Content-Type和POST提交数据方式的关系
Content-Type | 提交数据的方式 |
---|---|
application/x-www-form-urlencoded | 表单数据 |
multipart/form-data | 表单文件上传 |
application/json | 序列化JSON数据 |
text/xml | XML数据 |
请求方法
get 请求页面 # 注意get方法最多在url中携带1024字节数据, 一般查询/搜索才用到这种方式
post 提交数据到指定资源,(提交表单或上传文件)
put 修改请求
delete 删除请求
Referer: 该字段的值是当前网页的上一个页面的URL(也就是跳转到当前页面的前一个页面的URL) 注意referer 只要是这个url的父级就可以(https://ibaotu.com/sucai/),也就是说只有域名都可以
会话技术
cookie
http是无状态的,那服务端怎么区分同一个用户的连续请求呢,这就用到了会话技术:cookie和session。
Cookie有时也用其复数形式 Cookies。指某些网站为了辨别用户身份、进行 session 跟踪而储存在用户本地终端上的数据(通常经过加密)。最新的规范是 RFC6265 。
Cookie其实就是由服务器发给客户端的特殊信息,而这些信息以文本文件的方式存放在客户端,然后客户端每次向服务器发送请求的时候都会带上这些特殊的信息。 服务器在接收到Cookie以后,会验证Cookie的信息,以此来辨别用户的身份。
Cookie可以理解为一个凭证。
session
Session,中文经常翻译为会话,其本来的含义是指有始有终的一系列动作/消息,比如打电话时从拿起电话拨号到挂断电话这中间的一系列过程可以称之为一个session。这个词在各个领域都有在使用。
而我们web领域,一般使用的是其本义,一个浏览器窗口从打开到关闭这个期间。
Session的目的则是,在一个客户从打开浏览器到关闭浏览器这个期间内,发起的所有请求都可以被识别为同一个用户。而实现的方式则是,在一个客户打开浏览器开始访问网站的时候,会生成一个cookie,SessionID,这个ID每次的访问都会带上,而服务器会识别这个SessionID并且将与这个SessionID有关的数据保存在服务器上。由此来实现客户端的状态识别。因此session是基于cookie的
Session与Cookie相反,Session是存储在服务器上的数据,只由客户端传上来的SessionId来进行判定,所以相对于Cookie,Session的安全性更高。
一般SessionID会在浏览器被关闭时丢弃,或者服务器会验证Session的活跃程度,例如30分钟某一个SessionID都没有活跃,那么也会被识别为失效。
socket(python 内置库)
socket是应用层与传输层之间的桥
利用socket下载百度图片搜索词为动漫的整个页面的图片
import re
import socket # 1. 创建一个客户端(socket对象)
client = socket.socket()
# 访问url http://image.baidu.com/search/index?tn=baiduimage&word=%E5%8A%A8%E6%BC%AB # 2. 连接到对应的服务器(主机)
url = 'image.baidu.com'
client.connect((url, 80)) # 注意connect接收的是一个元组("地址ip", 端口), 即域名 # 3. 构造HTTP请求报文
http_req = "GET /search/index?tn=baiduimage&word=动漫 HTTP/1.0\r\n\
Host: image.baidu.com\r\n\
Referer: http://www.baidu.com\r\n\
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36\r\n\r\n" # 4. 发送请求
client.send(http_req.encode()) # send只接受字节类型(二进制)的对象。 # 5. 循环接受响应报文的数据
def resp_data(client_obj):
"""
接受一个创建的客户端对象
:param client_obj:
:return: 返回接收的数据
"""
res = b''
resp_data = client_obj.recv(1024)
while resp_data:
res += resp_data
resp_data = client_obj.recv(512)
return res result = resp_data(client) # 匹配所有图片的url
img_urls = re.findall('"thumbURL":"(.*?)","replaceUrl"', result.decode(), re.S)
# print(img_url) # 遍历主机 路径并构造http请求报文
for num, img_url in enumerate(img_urls):
host = re.findall('http://(.*?)/it', img_url, re.S)[0]
path = re.findall('\.com(.*)', img_url, re.S)[0]
# print(host, path)
client_img = socket.socket()
client_img.connect((host, 80)) # 构造格式化的请求报文
http_req = "\
GET {} HTTP/1.0\r\n\
Host: {}\r\n\
Referer: http://image.baidu.com\r\n\
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36\r\n\r\n".format(path, host)
client_img.send(http_req.encode())
result_img = resp_data(client_img) # 再次接受响应的数据
img_data = result_img.split(b'\r\n\r\n')[-1]
# print(img_data) # 创建文件夹
file_path = './images'
os.makedirs(file_path, exist_ok=True)
file_name = './images/{}.jpg'
# 将图片数据写入文件
with open(file_name.format(num + 1), 'wb') as f:
f.write(img_data)
print('第%s张图片下载完成' % (num + 1))
# re.S 表示正则中的.(元字符)可以匹配换行符在内的所有字符(\r\n) # makedirs 是超级的mkdir不用判断文件是否存在 直接指定参数exist_ok=True即可创建文件夹
图片下载思路:
1.先请求目标url
2.接收到该页面的数据(响应体); 从该页面匹配到所有的图片url (正则, xpath等)
3.循环对所有的url发起请求(多线程)
4.接收数据(构造数据)
5.写入文件
拓展
访问HTTPS 下载图片
import socket
import ssl # 创建一个socket对象
sock = socket.socket() # ssl安全加成, 接收一个socket对象
client = ssl.wrap_socket(sock) # wrap:意思就是将sock对象包起来 可以理解为数据从管道传输, 相比较http更加安全;所以说https传输的数据是加密的,就是基于该原理 # 然后再建立连接
client.connect(("117.157.234.247", 443)) ....
# 后面步骤同http
补充: socket网络通信
import socket
最新文章
- shell--2.shell数组
- Hadoop启动报Error: JAVA_HOME is not set and could not be found解决办法
- Java 7 Concurrency Cookbook 翻译 第一章 线程管理之一
- PHP Yii1.1.13(一):命令行创建应用~shop
- win2008r2激活码
- Windos中无法删除桌面IE图标的解决方法
- Delphi动态事件深入分析(对象方法在调用的时候会传递一个隐含的Self指针,而该指针的值在EAX中。即左边第一个参数)
- Mysql中类似于nvl()函数的ifnull()函数
- Swift 总结使用问号(?)和感叹号(!)-备用
- Delphi XE6调用javascript
- js实现分页
- IntelliJ IDEA下Maven SpringMVC+Mybatis入门搭建例子
- 20175202 《Java程序设计》第九周学习总结
- redis学习(四)redis事务
- locate包的安装
- 评论:一套Developer Express控件包 For Delphi7
- SpringBoot @AutoWired Null
- 简单列举几种常用 FTP
- Java接口获取系统配置信息
- xalan\xalan\2.7.2\xercesImpl.jar (系统找不到指定的文件)问题
热门文章
- Ubuntu 16.04 安装最新稳定版Nginx 1.6.0
- PHP通用分页类
- mac安装numpy,scipy,matplotlib
- Educational Codeforces Round 34 (Rated for Div. 2) A B C D
- 深入解析 ConcurrentHashMap 实现内幕,吊打面试官,没问题
- mq解决分布式事物问题
- Mybatis整合spring详细教程(适合小白童鞋)
- 用jquery实现楼层滚动对应导航高亮
- 服务容错保护hystrix
- Local Model Poisoning Attacks to Byzantine-Robust Federated Learning