scrapy shell 遇到的问题
2024-08-28 02:34:25
有时候用scrapy shell来调试很方便,但是有些网站有防爬虫机制,所以使用scrapy shell会返回403,比如下面
有两种解决方法:
(1):第一种方法是在命令上加上-s USER_AGENT='Mozilla/5.0'
第一种方法最简单但是每次操作都要加上去很繁琐,第二种方法比较好。
(2):第二种方法是修改scrapy的user-agent默认值
找到python的:安装目录下的default_settings.py文件,比如我的C:\Users\0923\AppData\Local\Programs\Python\Python37\Lib\site-packages\scrapy\settings
把
USER_AGENT = 'Scrapy/%s (+http://scrapy.org)' % import_module('scrapy').__version__
改为
USER_AGENT = 'Mozilla/5.0 (Windows NT 5.1; rv:5.0) Gecko/20100101 Firefox/5.0'
使用shell再次,发现已经可以正常访问html不会在出现403错误了。
最新文章
- Quartz框架
- Broadcom有线网卡在Windows 8/8.1/10下使用系统自带驱动会断网的解决办法
- Linux的IO性能监控
- Java数组的12个常用方法
- chromium获取代码和编译
- HTTP返回码总结 (zz)
- OCP-1Z0-051-题目解析-第6题
- MySQL之执行流程
- 3.SSM整合_多表_一对多的增删改查
- 使用hibernate原生sql查询,结果集全为1的问题解决
- 18年最有";钱";途的专业就是它(文末有福利)
- 堆排序 java实现
- db2建立类似oracle的dblink
- php设计模式总结-单件模式
- 一个sfm开源项目
- 2018-2019学年第一学期Java课设--魔塔
- python contextmananger装饰器与with
- jquery ui导入两次的错误提示
- Memcached理解笔2---XMemcached&;Spring集成
- 【Oracle】将表名与字段名连接成一行数据展示,字段名使用顿号的分隔