scrapy使用细节配置

一、建立项目

1、scrapy startproject 项目名字

2、进入项目:

scrapy genspider 名字 不带http的根网址

3、默认模板(或改变模板)

默认模板:class HuaSpider(scrapy.Spider):

改变模板:scapy genspider -t crwal 名字(hua2) 不带http的根网址:

(class Hua2Spider(CrawlSpider)

4、目录结构

二、setting基本设置

1、log日志输出的级别:

INFO、ERROR......

LOG_LEVEL = 'ERROR'

2、将log写到文件中(自动创建log.txt)

LOG_FILE = './log.txt'

3、robots

是否遵守各大网站的爬虫规则(robots),默认是True,为了得到我们想要的数据,设置ROBOTSTXT_OBEY为F     alse: ROBOTSTXT_OBEY = False

查看各大网站的规则:根网址+/robots.txt,例如https://www.baidu.com/robots.txt

4、设置代理middlewares.py

下载中间件设置:

1) 在setting中打开以下配置

DOWNLOADER_MIDDLEWARES = {

'postproject.middlewares.PostprojectDownloaderMiddleware': 543,

}

2)在middlewares.py中添加代理

在class PostprojectDownloaderMiddleware(object):

def process_request(self, request, spider):

公开代理格式:request.meta['proxy'] ='http://ip:port'

私密代理格式:request.meta['proxy'] = 'http://username:password@ip:port'

3)回到setting,解开下载中间件DOWNLOADER_MIDDLEWARES

欢迎关注小婷儿的博客:

csdn:https://blog.csdn.net/u010986753

博客园:http://www.cnblogs.com/xxtalhr/

有问题请在博客下留言或加QQ群:483766429 或联系作者本人 QQ :87605025

OCP培训说明连接:https://mp.weixin.qq.com/s/2cymJ4xiBPtTaHu16HkiuA

OCM培训说明连接:https://mp.weixin.qq.com/s/7-R6Cz8RcJKduVv6YlAxJA

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

小婷儿的python正在成长中,其中还有很多不足之处,随着学习和工作的深入,会对以往的博客内容逐步改进和完善哒。

重要的事说三遍。。。。。。

   

最新文章

  1. PHP对象Object的概念
  2. Entity Framework - Using Transactions or SaveChanges(false) and AcceptAllChanges()?
  3. STM32F10xx CAN BUS相关库文件"stm32f10x_can.c"内的库函数解析
  4. ntpd和ntpdate
  5. Eclipse编辑器基本设置
  6. jquery click事件的可选参数data的作用
  7. 非常实用的JQuery的选项卡切换源码
  8. 获取wpf datagrid当前被编辑单元格的内容
  9. Docker(一):Docker安装
  10. JavaScript作用域,内部函数比参数优先级高
  11. 洛谷 [P2420] 让我们异或吧
  12. javascript判断字符串相等
  13. css学习1
  14. week06 12 我们准备数据 前端调用rpc 前后端联调一下
  15. Javascript 自动执行函数(立即调用函数)
  16. SQL update select结合语句详解及应用
  17. @Pointcut的用法
  18. how-is-docker-different-from-a-normal-virtual-machine[Docker与VirtualMachine的区别]
  19. SpringBoot(十七)-- 定时任务
  20. ABAP-权限查询-用户信息系统

热门文章

  1. AutoMapper在项目中的应用
  2. 【代码笔记】iOS-请求去掉url中的空格
  3. SD从零开始05-06
  4. django 关于render的返回数据
  5. ArcGIS 中取出面上最大的Z值的坐标点
  6. SQLite 数据库增删改查
  7. cordova app强制横屏
  8. Flutter 数据模型创建
  9. Android 监听 WiFi 开关状态
  10. SpringBoot中redis的使用介绍