有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面

  

有两种解决方法:

  (1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0'

  第一种方法最简单但是每次操作都要加上去很繁琐,第二种方法比较好。

  (2):第二种方法是修改scrapy的user-agent默认值

  找到python的:安装目录下的default_settings.py文件,比如我的C:\Users\0923\AppData\Local\Programs\Python\Python37\Lib\site-packages\scrapy\settings  

  把

    USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__

  改为

    USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'

  使用shell再次,发现已经可以正常访问html不会在出现403错误了。

  

最新文章

  1. Quartz框架
  2. Broadcom有线网卡在Windows 8/8.1/10下使用系统自带驱动会断网的解决办法
  3. Linux的IO性能监控
  4. Java数组的12个常用方法
  5. chromium获取代码和编译
  6. HTTP返回码总结 (zz)
  7. OCP-1Z0-051-题目解析-第6题
  8. MySQL之执行流程
  9. 3.SSM整合_多表_一对多的增删改查
  10. 使用hibernate原生sql查询,结果集全为1的问题解决
  11. 18年最有"钱"途的专业就是它(文末有福利)
  12. 堆排序 java实现
  13. db2建立类似oracle的dblink
  14. php设计模式总结-单件模式
  15. 一个sfm开源项目
  16. 2018-2019学年第一学期Java课设--魔塔
  17. python contextmananger装饰器与with
  18. jquery ui导入两次的错误提示
  19. Memcached理解笔2---XMemcached&Spring集成
  20. 【Oracle】将表名与字段名连接成一行数据展示,字段名使用顿号的分隔

热门文章

  1. tcpdump抓包工具的基本使用
  2. Redis系列(四):数据结构String类型中基本操作命令和源码解析
  3. brother b-PAC sdk开发包
  4. tarjan算法求scc & 缩点
  5. CLR垃圾收集器
  6. JDK8--04:内置接口
  7. MongoDB快速入门教程 (3.3)
  8. sql 语句和实例
  9. SpringBoot中VO,DTO,DO,PO的概念、区别和用处
  10. Centos 下 Jenkins2.6 + Git + Maven Shell一件部署与备份