Scrapy框架Crawler模板爬虫
2024-09-06 11:54:49
1、创建一个CrawlerSpider
scrapy genspider -t crawl wx_spider 'wxapp-union.com'
#导入规则
from scrapy.spiders import Rule,CrawlSpider
from scrapy.linkextractors import LinkExtractor
2、Rule规则
class scrapy.spiders.Rule(
link_extractor,#一个LinkExtractor对象,用于定义爬取规则
callback,#满足这个规则的url执行的回调函数 【注意】:不要使用parse函数,因为Crawlspider征用了
follow,#指定根据该规则从response又提取出类似链接要不要继续跟进, 默认为True
process_link,#从link_extractor中获取到的链接会传递给这个函数,用于过滤不需要爬取的链接
)
3、LinkExtractor提取器
class scrapy.linkextractors.LinkExtractor(
allow=(),#允许的url,满足这个正则表达式的url都会被提取
deny=(),#不允许的url
allow_domains=(),#允许的域名
deny_domains=(),#禁止的域名
restrict_xpaths=(),#严格的xpath,与allow共同过滤
unique=True/False,#链接是否去重
)
示例(抓取微信小程序社区)
class WxSpiderSpider(CrawlSpider):
name = 'wx_spider'
allowed_domains = ['wxapp-union.com']
start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1']
rules = (
Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),#定义页面抓取规则,这里允许跟进
Rule(LinkExtractor(allow=r'.+/article-.+\.html'),callback = "parse_detail_page", follow=False)#定义内容抓取规则,这里不允许跟进,也就是内容页上的类似链接不跟进
)
def parse_detail_page(self, response):
title = response.xpath('//h1[@class="ph"]/text()').get()
content =response.xpath('//td[@id="article_content"]//text()').getall()
content = ''.join(content)
author_p = response.xpath('//p[@class="authors"]')
author=author_p.xpath('.//a/text()').get()
pub_time=author_p.xpath('.//span/text()').get()
yield WxappItem(title=title,author=author,pub_time=pub_time,content=content)
最新文章
- ajax 允许跨域html头设置
- storm坑之---传递对象
- 小白有问题-下雨天给linux装adobe flash player更配
- 使用Nginx解决IIS绑定域名导致应用程序重启的问题
- LIS(nlogn) POJ 3903 Stock Exchange
- C#创建Windows服务入门图解(VS2010)
- [转载代码]VB.NET 中查询 Linq to SQL 执行时的SQL语句
- SpringMVC、Zookeeper、Dubbo使用
- Stones(优先队列)
- ASP.NET没有魔法——为什么使用ASP.NET
- 官方Canvas API文档
- 2018最新APP Android UI设计规范
- 【letcode】5-LongestPalindromicSubstring
- Android开发——断点续传原理以及实现
- LOJ #2141. 「SHOI2017」期末考试
- Fluent UDF【2】:学习途径
- xml时间配置
- c++11多线程学习笔记之四 生产消费者
- requirejs的插件介绍与制作
- 【运维技术】slc pm 启动不了,异常排除问题记录
热门文章
- SQL 分组后获取每组中最大值
- vue引入外部css和js
- 图论最短路径算法——SPFA
- JeecgBoot 2.1.1 代码生成器AI版本发布,基于SpringBoot+AntDesign的JAVA快速开发平台
- c++ STL使用
- Pandas系列-读取csv/txt/excel/mysql数据
- https://blog.csdn.net/qq_33169863/article/details/82977791
- wps中,怎么快速查看xls中隐藏的图片
- HtmlHelper2
- VS2005下安装boost