爬虫学习--Day4(网页采集器的实现)
2024-09-01 15:49:31
#UA: User-Agent {请求载体的身份标识}
#(反爬机制)UA检测:门户网站的服务器回检测对应请求的载体身份标识,如果检测到请求的载体身份为某一款浏览器就说明该请求时一个正常的请求。但是,如果检测到请求的载体身份标识不是基于某一款浏览器的,则表示该请求为
不正常的请求(爬虫),则服务器端就很有可能拒绝该次请求。 #(反反爬策略)UA伪装
为了让我们每次爬虫请求,都能成功请求,爬虫进行反反爬策略(UA伪装)让怕吃哦那个对应的请求载体身份标识伪装成某一浏览器
import requests
if __name__=="__main__":
#UA伪装:将对应的User-Agent封装到一个字典中
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36'
}
#指定url路径
url = 'https://www.sogou.com/web'
# 处理url携带的参数:将参数封装到字典中
kw = input('Enter a word:')
param = {
'query':kw
}
# 对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response=requests.get(url=url,params=param,headers=headers)
#获取响应数据
page_text = response.text
#对获取的响应数据进行持久化存储
fileName = kw+'.html'
with open(fileName,'w',encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,'保存成功')
测试:
结果:
最新文章
- angularjs 2.0 快速案例(1)
- Linux下mysql忘记root密码
- asp.net mvc return file result
- 如何在APICloud平台使用腾讯X5引擎
- 全国行政区划代码(json对象版)
- C++ Primer : 第十一章 : 关联容器之关联容器的迭代器和操作
- POJ 1251 Jungle Roads
- hdu 4687 带花树匹配
- Swift中文教程(四)--函数与闭包
- 【锋利的Jquery】读书笔记六
- HDU/5499/模拟
- NFC中国-中国第一NFC论坛,NFC中文论坛+NFC技术社区+NFC_电子发烧友网【申明:来源于网络】
- 2019.02.17 spoj Query on a tree VI(链分治)
- 解决Maven build 慢的问题
- Linq动态查询与模糊查询 ---转
- Maven中的配置文件
- Notes of Daily Scrum Meeting(12.16)
- 简单的sql分组统计
- Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十九)ES6.2.2 安装Ik中文分词器
- PHP将CMYK颜色值和RGB颜色相互转换的例子