一, 基于requests模块的cookie操作

引言:有些时候,我们在使用爬虫程序去爬取一些用户相关信息的数据(爬取张三“人人网”个人主页数据)时,如果使用之前requests模块常规操作时,往往达不到我们想要的目的,例如:

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
if __name__ == "__main__": #张三人人网个人信息页面的url
url = 'http://www.renren.com/289676607/profile' #伪装UA
headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36',
}
#发送请求,获取响应对象
response = requests.get(url=url,headers=headers)
#将响应内容写入文件
with open('./renren.html','w',encoding='utf-8') as fp:
fp.write(response.text)

- 结果发现,写入到文件中的数据,不是张三个人页面的数据,而是人人网登陆的首页面,why?首先我们来回顾下cookie的相关概念及作用:

  - cookie概念:当用户通过浏览器首次访问一个域名时,访问的web服务器会给客户端发送数据,以保持web服务器与客户端之间的状态保持,这些数据就是cookie。

  - cookie作用:我们在浏览器中,经常涉及到数据的交换,比如你登录邮箱,登录一个页面。我们经常会在此时设置30天内记住我,或者自动登录选项。那么它们是怎么记录信息的呢,答案就是今天的主                                   角cookie了,Cookie是由HTTP服务器设置的,保存在浏览器中,但HTTP协议是一种无状态协议,在数据交换完毕后,服务器端和客户端的链接就会关闭,每次交换数据都需要建立新的链                                 接。就像我们去超市买东西,没有积分卡的情况下,我们买完东西之后,超市没有我们的任何消费信息,但我们办了积分卡之后,超市就有了我们的消费信息。cookie就像是积分卡,可以                                     保存积分,商品就是我们的信息,超市的系统就像服务器后台,http协议就是交易的过程。

- 经过cookie的相关介绍,其实你已经知道了为什么上述案例中爬取到的不是张三个人信息页,而是登录页面。那应该如何抓取到张三的个人信息页呢?

  思路:

    1.我们需要使用爬虫程序对人人网的登录时的请求进行一次抓取,获取请求中的cookie数据

    2.在使用个人信息页的url进行请求时,该请求需要携带 1 中的cookie,只有携带了cookie后,服务器才可识别这次请求的用户信息,方可响应回指定的用户信息页数据

import requests
from lxml import etree headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.67 Safari/537.36"
}
# 1.进行登陆操作,服务器就会对当前用户 创建一个cookie对象(存储当前的用户状态信息,以及身份标识)
# 2. 进行个人主页的请求(携带步骤1中创建的cookie), 获取当前用户个人主页的页面数据 # 登陆
#登录请求的url(通过抓包工具获取)
login_url = "http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018922053679 "
session = requests.session() # #创建一个session对象,该对象会自动将请求中的cookie进行存储和携带
data = {
"captcha_type":"web_login",
"domain":"renren.com",
"email":"18829037944",
"f":"",
"icode":"",
"key_id":"1",
"origURL":"http://www.renren.com/home",
"password": "30f28dff42c847e99969e7e91f8356bcb80aa2e9993893add81b6ff76c899be3",
"rkey": "f1ace095ea75f09850cbb28b87a04b9e",
}
session.post(url=login_url, data=data, headers=headers) # 使用session发送请求,目的是为了将session保存该次请求中的cookie get_url = "http://www.renren.com/968520666/profile"
# 再次使用session进行请求的发送,该次请求中已经携带了cookie
response = session.get(url=get_url, headers=headers)
#设置响应内容的编码格式
response.encoding = 'utf-8'
page_text = response.text #将响应内容写入文件
with open('./renren01.html','w', encoding="utf-8") as fp:
fp.write(response.text)
print("over")

二, 基于requests模块的代理操作

  • 什么是代理

    • 代理就是第三方代替本体处理相关事务。例如:生活中的代理:代购,中介,微商......

  • 爬虫中为什么需要使用代理

    • 一些网站会有相应的反爬虫措施,例如很多网站会检测某一段时间某个IP的访问次数,如果访问频率太快以至于看起来不像正常访客,它可能就会会禁止这个IP的访问。所以我们需要设置一些代理IP,每隔一段时间换一个代理IP,就算IP被禁止,依然可以换个IP继续爬取。

  • 代理的分类:

    • 正向代理:代理客户端获取数据。正向代理是为了保护客户端防止被追究责任。

    • 反向代理:代理服务器提供数据。反向代理是为了保护服务器或负责负载均衡。

  • 免费代理ip提供网站

    • http://www.goubanjia.com/

    • 西祠代理

    • 快代理

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import requests
import random
if __name__ == "__main__":
#不同浏览器的UA
header_list = [
# 遨游
{"user-agent": "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)"},
# 火狐
{"user-agent": "Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1"},
# 谷歌
{
"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11"}
]
#不同的代理IP
proxy_list = [
{"http": "112.115.57.20:3128"},
{'http': '121.41.171.223:3128'}
]
#随机获取UA和代理IP
header = random.choice(header_list)
proxy = random.choice(proxy_list) url = 'http://www.baidu.com/s?ie=UTF-8&wd=ip'
#参数3:设置代理
response = requests.get(url=url,headers=header,proxies=proxy)
response.encoding = 'utf-8' with open('daili.html', 'wb') as fp:
fp.write(response.content)
#切换成原来的IP
requests.get(url, proxies={"http": ""})

最新文章

  1. 基础3.Jquery操作Dom
  2. JavaScript基本语法(二)
  3. 在windows系统的文件右键菜单中增加“命令提示符”
  4. Lintcode: Minimum Adjustment Cost
  5. Another app is currently holding the yum lock; waiting for it to exit...另一个应用程序在占用yum lock,等待其退出。
  6. 各Android版本的Linux内核表(待续)以及如何下载相应的android源码
  7. SQL中各数据类型的长度、精度
  8. Ubuntu 14.04根据系统,休眠后不能启动要解决的问题
  9. jQuery EasyUI 数字框(NumberBox)用法
  10. 为经典版eclipse增加web and JavaEE插件
  11. java如何避免死锁
  12. Guava API
  13. maven下的sqlserver配置jar包
  14. Oracle相关知识做个总结
  15. Codeforces 1095F Make It Connected(最小生成树)
  16. Day057--django
  17. hdu 3068 最长回文(manacher&最长回文子串)
  18. SQL Server 2016以上版本大小写敏感的解决办法
  19. LINUX 源码+内核所有参数说明
  20. 实习医生格蕾第一季/全集Grey’s Anatomy迅雷下载

热门文章

  1. 十二、导出python脚本
  2. Python3基础 yield StopIteration.value获取函数的返回值
  3. 从Linux服务器下载文件夹到本地
  4. WebGL学习笔记(三):绘制一个三角形
  5. 将map对象参数转换成String=String&方式
  6. 解决GitHub访问速度慢的问题
  7. SQL中EXPLAIN命令详解---(转)
  8. 栈习题(1)-对于任意的无符号的的十进制数m,写出将其转换为十六进制整数的算法(正确输出即可)
  9. 魔术方法之__call、__callStatic
  10. 关于fastjson与jackson在反序列化bool型时的区别