网页采集器-UA伪装

UA伪装

请求载体身份标识的伪装:

User-Agent:

请求载体身份标识,通过浏览器发起的请求,请求载体为浏览器,则该请求的User-Agent为浏览器的身份标识,如果使用爬虫程序发起的请求,则该请求的载体为爬虫程序,则该请求的User-Agent为爬虫程序的身份标识。服务器可以通过该值来判断发起请求的是浏览器还是爬虫程序。

反爬机制:

某些门户网站会对访问该网站的请求中的User-Agent进行捕获和判断,如果该请求的UA为爬虫程序,那么就拒绝该提供请求数据。

反反爬策略:

将爬虫的UA伪装成某一款浏览器的身份标识

import requests
kew_word=input("请输入查询的关键字:")
url="https://www.sogou.com/web"
parm={
'query':kew_word
}
#修改爬虫的UA为浏览器的UA
headers={
"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36"
}
res=requests.get(url=url,params=parm,headers=headers)
with open(f"{kew_word}.html","w",encoding="utf-8")as fw:
fw.write(res.text)
print("爬取成功")

最新文章

  1. Linux系统安全保护措施
  2. dtw算法
  3. mfc模态对话框
  4. memcached一些整理
  5. Installation error: INSTALL_CANCELED_BY_USER
  6. Swift - 协议(protocol)
  7. stray '/241' in program 错误
  8. 通过AIDL在两个APP之间Service通信
  9. python 闯关之路三(面向对象与网络编程)
  10. tf.transpose()的用法
  11. 让jQuery的contains方法不区分大小写
  12. springboot 日志1
  13. [CALayer release]: message sent to deallocated instance
  14. SQL数据缓存依赖总结
  15. NLP知识结构概述
  16. JWPlayer快速入门指南(中文)
  17. Send2MyKindle使用说明文档
  18. Ansible 创建用户 Playbook 脚本
  19. day69-oracle 21-PLSQL课后作业
  20. 数据结构5: 链表(单链表)的基本操作及C语言实现

热门文章

  1. CVE-2019-13272Linuxkernel权限许可和访问控制问题漏洞
  2. NOIP模拟 16
  3. mysql-清除binlog日志命令
  4. 原生JS封装_new函数,实现new关键字的功能
  5. windows使用docker运行mysql等工具(二)安装运行mysql
  6. zookeeper集群模式安装
  7. Spring中常用的注解及作用
  8. 别翻了,这篇文章绝对让你深刻理解java类的加载以及ClassLoader源码分析【JVM篇二】
  9. Salesforce学习之路(十)Org的命名空间
  10. nyoj 82-迷宫寻宝(一) (多重BFS)