1、创建一个CrawlerSpider

scrapy genspider -t crawl wx_spider 'wxapp-union.com'
#导入规则
from scrapy.spiders import Rule,CrawlSpider
from scrapy.linkextractors import LinkExtractor

2、Rule规则

class scrapy.spiders.Rule(
link_extractor,#一个LinkExtractor对象,用于定义爬取规则
callback,#满足这个规则的url执行的回调函数 【注意】:不要使用parse函数,因为Crawlspider征用了
follow,#指定根据该规则从response又提取出类似链接要不要继续跟进, 默认为True
process_link,#从link_extractor中获取到的链接会传递给这个函数,用于过滤不需要爬取的链接
)

3、LinkExtractor提取器

class scrapy.linkextractors.LinkExtractor(
allow=(),#允许的url,满足这个正则表达式的url都会被提取
deny=(),#不允许的url
allow_domains=(),#允许的域名
deny_domains=(),#禁止的域名
restrict_xpaths=(),#严格的xpath,与allow共同过滤
unique=True/False,#链接是否去重
)

示例(抓取微信小程序社区)

class WxSpiderSpider(CrawlSpider):
name = 'wx_spider'
allowed_domains = ['wxapp-union.com']
start_urls = ['http://www.wxapp-union.com/portal.php?mod=list&catid=2&page=1'] rules = (
Rule(LinkExtractor(allow=r'.+mod=list&catid=2&page=\d'), follow=True),#定义页面抓取规则,这里允许跟进
Rule(LinkExtractor(allow=r'.+/article-.+\.html'),callback = "parse_detail_page", follow=False)#定义内容抓取规则,这里不允许跟进,也就是内容页上的类似链接不跟进
) def parse_detail_page(self, response):
title = response.xpath('//h1[@class="ph"]/text()').get()
content =response.xpath('//td[@id="article_content"]//text()').getall()
content = ''.join(content)
author_p = response.xpath('//p[@class="authors"]')
author=author_p.xpath('.//a/text()').get()
pub_time=author_p.xpath('.//span/text()').get()
yield WxappItem(title=title,author=author,pub_time=pub_time,content=content)

最新文章

  1. ajax 允许跨域html头设置
  2. storm坑之---传递对象
  3. 小白有问题-下雨天给linux装adobe flash player更配
  4. 使用Nginx解决IIS绑定域名导致应用程序重启的问题
  5. LIS(nlogn) POJ 3903 Stock Exchange
  6. C#创建Windows服务入门图解(VS2010)
  7. [转载代码]VB.NET 中查询 Linq to SQL 执行时的SQL语句
  8. SpringMVC、Zookeeper、Dubbo使用
  9. Stones(优先队列)
  10. ASP.NET没有魔法——为什么使用ASP.NET
  11. 官方Canvas API文档
  12. 2018最新APP Android UI设计规范
  13. 【letcode】5-LongestPalindromicSubstring
  14. Android开发——断点续传原理以及实现
  15. LOJ #2141. 「SHOI2017」期末考试
  16. Fluent UDF【2】:学习途径
  17. xml时间配置
  18. c++11多线程学习笔记之四 生产消费者
  19. requirejs的插件介绍与制作
  20. 【运维技术】slc pm 启动不了,异常排除问题记录

热门文章

  1. SQL 分组后获取每组中最大值
  2. vue引入外部css和js
  3. 图论最短路径算法——SPFA
  4. JeecgBoot 2.1.1 代码生成器AI版本发布,基于SpringBoot+AntDesign的JAVA快速开发平台
  5. c++ STL使用
  6. Pandas系列-读取csv/txt/excel/mysql数据
  7. https://blog.csdn.net/qq_33169863/article/details/82977791
  8. wps中,怎么快速查看xls中隐藏的图片
  9. HtmlHelper2
  10. VS2005下安装boost