爬取页面数据,我们需要访问页面,发送http请求,以下内容就是Python发送请求的几种简单方式:

会使用到的库  urllib   requests

1.urlopen

import urllib.request
import urllib.parse
import urllib.error
import socket
data = bytes(urllib.parse.urlencode({"hello": "world"}),encoding='utf8')
try:
response = urllib.request.urlopen('http://httpbin.org/post',data=data,timeout=10)
print(response.status)
print(response.read().decode('utf-8'))
except urllib.error.URLError as e:
if isinstance(e.reason, socket.timeout):
print("TIMEOUT")

2.requests

用到requests中的get  post  delete  put 方法访问请求  这种比一简单一些

每个方法有相应的参数列表,比如 get  params参数   proxies:设置代理  auth: 认证  timeout :超时时间 等

import requests
ico = requests.get("https://github.com/favicon.ico")
with open("favicon.ico", "wb") as file:
file.write(ico.content)

3.Request Session

from requests import Session, Request
url = "https://home.cnblogs.com/u/qiutian-guniang/"
s = Session()
req = Request('GET', url=url, headers=header)
pred = s.prepare_request(req)
r = s.send(pred)
print(r.text)
某些网页会禁止抓取数据 我们可以 通过设置User-Agent来设置 使用cookies来保持登录的访问状态例如:以下的cookie内容可以通过在F12控制台获取 复制粘贴 放入headers中

cookies = "_gat=1"

headers = {
"Cookie": cookies,
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; '
'x64) AppleWebKit/537.36 (KHTML, like Gecko) '
'Chrome/68.0.3440.106 Safari/537.36'
}
												

最新文章

  1. javascriptの循序渐进(一)
  2. Android笔记——Android五大布局
  3. linux命令学习使用记录
  4. iOS搜索附近的位置(类似微博朋友圈位置)
  5. Maven工程中报 Missing artifact jdk.tools:jdk.tools:
  6. C#GDI+图像处理
  7. oc学习之路----代理模式
  8. phpcms 源码分析三:common.inc.php
  9. 比较ArrayList和LinkedList
  10. Ubuntu snappy is lame
  11. Permission denied: user=xxj, access=WRITE, inode="user":hadoop:supergroup:rwxr-xr-x
  12. OC中的单例
  13. 使用redis做缓存
  14. [extjs5学习笔记]第三十七节 Extjs6预览版都有神马新东西
  15. tkinter中checkbutton多选框控件和variable用法(六)
  16. 【PAT】B1013 数素数
  17. 【python】多进程共享变量Manager
  18. Prime ring problem,递归,广搜,回溯法枚举,很好的题
  19. BZOJ1926[Sdoi2010]粟粟的书架——二分答案+主席树
  20. javanio1----传统io

热门文章

  1. Error Code : 1064 You have an error in your SQL syntax; check the manual that corresponds to your My
  2. 《NVM-Express-1_4-2019.06.10-Ratified》学习笔记(6.15)-- 写命令
  3. 【C语言】输出半径1到10的圆的面积,当面积值超过100时,停止执行本程序
  4. jfinal 拦截器中判断是否为pjax请求
  5. 2020牛客寒假算法基础集训营1 J. 缪斯的影响力 (矩阵快速幂/费马小定理降幂)
  6. ssm开发垃圾分类查询系统 源码 mysql
  7. 判断IE版本的HTML语句[if lte IE 9]……[endif]
  8. 基本程序单元Activity
  9. 杭电oj1717——小数化分数(java实现)
  10. K3/Cloud树形单据体的rowId赋值