scrapy常用设置和注意点!!!!
2024-10-07 01:22:42
setting里的设置
HTTPERROR_ALLOWED_CODES = [405] //这一条是忽略405错误退出进程,有可能跳到405页面,在parse注意判断,重新请求页面
爬虫里的设置
response.url //这一条在parse里是返回上一个请求链接
meta = {'dont_redirect': True} //这个是限定页面不能跳转
dont_filter = True //这个是不过滤页面重新爬取,这个在页面取不到数据里,要重新爬取时很有用
中间件里的设置
process_exception //这个方法里最好不要返回request 这样会停止进程的,最好在这里换IP然后什么也不要返回即可
最新文章
- BPM配置故事之案例11-操作外部数据源
- java关于压缩包的处理,我这里贴出三中格式的(zip,rar,tar)解压方法(目前只用到解压,所以压缩过多研究)。
- 每天一个linux命令(60):scp命令
- WinPhone学习笔记(三)——WinPhone的动画
- Uncaught ReferenceError: console is not defined
- Python 学习笔记(3) - 控制流、函数
- 基于visual Studio2013解决算法导论之002归并排序
- Redis源代码分析(二十四)--- tool工具类(2)
- 判断iPhone设备是carplay和iPod的方法
- css因Mime类型不匹配而被忽略,怎么解决
- 关于拒绝测试驱动开发(NoTDD)
- request、response的setCharacterEncoding与response的setContentType
- Caused by: The Result type [json] which is defined in the Result annotation on the class
- DoraBox 漏洞练习平台
- Libevent官方代码样例学习(二)
- HDU 4006 The kth great number (优先队列)
- 用redis做简单的任务队列(一)
- php7 数据库操作的 方法
- pyCharm最新2019激活码
- jQuery写缓存之:sessionStorage的运用,配合PHP将不同tab页的数据写入后台
热门文章
- Hibernate HelloWorld案例
- 小D课堂 - 新版本微服务springcloud+Docker教程_2_01传统架构演进到分布式架构
- 阶段3 3.SpringMVC·_07.SSM整合案例_09.ssm整合之Spring整合MyBatis框架配置事务
- mssql表分区
- MySQL数据表列转行
- 七十二:flask钩子函数之关于errorhandler的钩子函数
- python programming作业10(仍有一点点小bug)
- springboot jar启动 读取jar包中相对路径文件报错
- SQLserver本地数据库开发
- Mac下的Pycharm教程