crawlspider抽屉爬取实例+分布
2024-08-31 16:14:26
创建项目 scrapy startproject choutiPro
创建爬虫文件 scrapy genspider -t crawl chouti www.xxx.com
进入pycharm 培训setting文件
配置UA 和robotstxt 配置
ROBOTSTXT_OBEY = False
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36' 爬虫代码 抽屉式120页码的数据实现爬取
# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule class ChoutiSpider(CrawlSpider):
name = 'chouti'
# allowed_domains = ['www.xxx.com']
start_urls = ['https://dig.chouti.com/r/scoff/hot/1']
#连接提取器:可以在起始的url对应的页面源码中提取指定符合要求的连接
#allow参数值表示的是一个正则表达式规则
Link = LinkExtractor(allow=r'/r/scoff/hot/\d+')
rules = (
#实例化了一个规则解析器对象
#follow True,会作用到没有个页码的中进行提取,这可以一直提取到页码所有页码链接
#同时调度去会给我们自动去重操作
Rule(Link, callback='parse_item', follow=True),
)
def parse_item(self, response):
#这里打印页码链接,可以进行详细解析每一个页码中数据
print(response)
最新文章
- [CLR via C#]25. 线程基础
- python基础使用
- vcffilter 工具bug以及解决办法
- Flex 教程(1)-------------控件拖动
- MVC Model Binder
- iOS使用sqlite3原生语法进行增删改查以及FMDB的使用
- 利用微信公众平台实现自动回复消息—java版
- git 创建分支,删除分支,管理分支
- Win7+CentOS双系统(二)
- 转:运行page页面时的事件执行顺序及页面的回发与否深度了解
- SourceTree安装跳过注册
- 越来越火的";中台";是什么
- Ubuntu 16.04 使用校园网客户端上网
- spring boot + vue + element-ui全栈开发入门——前端编辑数据对话框
- Go 字符串连接+=与strings.Join性能对比
- DLL加载顺序
- 《JavaScript-The Definitive Guide》读书笔记:字符串常用方法
- 语音识别bug
- 10.2-uC/OS-III内部任务管理(任务状态)
- 总结:独立开发 jar 包组件——功能主要是支持查询数据库的所有表数据