Scrapy的介绍和用法

转载：https://www.toutiao.com/i6493421606306578958/

Scrapy是爬虫必须学会的一个框架！他确实很难搞的透彻！今天就不给大家全部介绍了！还是介绍其中的CrawlSpiders吧！CrawlSpiders是Spider的派生类，Spider类的设计原则是只爬取start_url列表中的网页，而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制，从爬取的网页中获取link并继续爬取的工作更适合。小编推荐大家加一下这个群：103456743这个群里好几千人了！大家遇到啥问题都会在里面交流！而且免费分享零基础入门料资料web开发爬虫资料一整套！是个非常好的学习交流地方！也有程序员大神给大家热心解答各种问题！很快满员了。欲进从速哦！各种PDF等你来下载！全部都是免费的哦！所以小编在群里等你们过来一起交流学习呢！

一、我们先来分析一下CrawlSpiders源码

主要参数：① allow：满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。② deny：与这个正则表达式(或正则表达式列表)不匹配的URL一定不提取。③ allow_domains：会被提取的链接的domains。④ deny_domains：一定不会被提取链接的domains。⑤ restrict_xpaths：使用xpath表达式，和allow共同作用过滤链接。

三、 CrawlSpider爬虫案例分析

youyuan.py

巴特西

Scrapy的介绍和用法

最新文章

热门文章