scrapy文档

一:安装scrapy

a. pip3 install wheel

b. 下载twisted http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

c. 进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl

d. pip3 install scrapy

e. 下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/

二:基本操作

(1)新建工程:在创建工程之前先进入想用来保存代码的目录,然后执行

scrapy startproject xxx #创建项目

Microsoft Windows [版本 10.0.16299.309]
(c) Microsoft Corporation。保留所有权利。 C:\Users\felix>cd C:\Users\felix\PycharmProjects\scrapy_quotes C:\Users\felix\PycharmProjects\scrapy_quotes>scrapy startproject quotes
New Scrapy project 'quotes', using template directory 'c:\\users\\felix\\appdata\\local\\programs\\python\\python36\\lib\\site-packages\\scrapy\\templates\\project', created in:
C:\Users\felix\PycharmProjects\scrapy_quotes\quotes You can start your first spider with:
cd quotes
scrapy genspider example example.com

执行这条命令将创建一个新目录:包括的文件如下:

scrapy.cfg:项目配置文件

quotes/:项目python模块,待会代码将从这里导入

quotes/items:项目items文件

quotes/pipelines.py:项目管道文件

quotes/settings.py:项目配置文件

quotes/spiders:放置spider的目录

(2):创建爬虫

cd quotes # 先进入项目目录

scrapy genspider name name.com  # 创建爬虫

scrapy crawl name # 运行爬虫

(3):创建的爬虫类解析

import scrapy
from quotes.items import QuotesItem class QuotespiderSpider(scrapy.Spider):
name = 'quotespider' # 爬虫名称
allowed_domains = ['quotes.toscrape.com'] # 允许爬虫访问的域名,可以多个
start_urls = ['http://quotes.toscrape.com/'] # 爬虫开始的url地址 def parse(self, response): # 爬虫返回的数据解析函数
quotes = response.css('.quote') # 通过css选择器选择相应的内容
for quote in quotes:
item = QuotesItem() # item做数据持久化的
text = quote.css('.text::text').extract_first() # ::text 表示输出文本内容
author = quote.css('.author::text').extract_first() # ::text 表示输出文本内容
tags = quote.css('.tags .tag::text').extract() # extract_first() 表示找第一个,extract()表示找到所有,并返回一个列表
item['text'] = text # 赋值 首先要在items类中创建
item['tags'] = tags
item['author'] = author
yield item # 生成item 做数据存储
next = response.css('.pager .next a::attr(href)').extract_first() # 得到相对的url
url = response.urljoin(next) # 获取一个绝对的url,获取下一页的url
yield scrapy.Request(url=url, callback=self.parse) # 处理链接,将返回的response交给callback的回调函数 # scrapy shell quotes.toscrape.com # 进入命令行调试
# scrapy crawl quotes -o quotes.json(.csv .xml) # 数据保存,可以保存多个类型

(4):items类解析

Items是将要装载抓取的数据的容器,它工作方式像python里面的字典,但它提供更多的保护,比如对未定义的字段填充以防止拼写错误。

它通过创建一个scrapy.item.Item类来声明,定义它的属性为scrpy.item.Field对象,就像是一个对象关系映射(ORM). 
我们通过将需要的item模型化,来控制获得的站点数据,比如我们要获得站点的名字,url和网站描述,我们定义这三种属性的域。要做到这点,我们编辑在quotes目录下的items.py文件,我们的Item类将会是这样

import scrapy

class QuotesItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
text=scrapy.Field() #创建文本字段
author=scrapy.Field() # 创建作者字段
tags=scrapy.Field() # 创建标签字段

(5):pipeline类解析

import pymongo
from scrapy.exceptions import DropItem # 要使用pipline一定要在设置中指定
class QuotesPipeline(object):
def process_item(self, item, spider):
return item # 一个pipeline要么返回item 要么返回dropitem
class TextPipeline(object):
def __init__(self):
self.limit = 50 def process_item(self, item, spider):
     # 这里的item为item类中的item
     # 大于50字的文本进行处理
if item['text']:
if len(item['text']) > self.limit:
item['text'] = item['text'][0:self.limit].rstrip() + '...'
return item
else:
return DropItem('Missing Text') # 添加数据库的操作
class MongoPipeline(object):
def __init__(self, mongo_url, mongo_db):
     # 初始化数据库
self.mongo_url = mongo_url
self.mongo_db = mongo_db

   # 该类方法可以从设置中读取数据
@classmethod
def from_crawler(cls, crawler):
return cls(
# 从设置里面获取数据库的设置信息
mongo_url=crawler.settings.get('MONGO_URL'),
mongo_db=crawler.settings.get('MONGO_DB')
) def open_spider(self, spider): # 启动爬虫时做的操作
     # 初始化数据库
self.client = pymongo.MongoClient(self.mongo_url)
self.db = self.client[self.mongo_db]
   # 处理item的方法,必须实现返回item或者dropitem
def process_item(self, item, spider):
name = item.__class__.__name__ # item的名称
self.db[name].insert(dict(item))
return item def close_spider(self, spider):
self.client.close() # 结束爬虫时关闭数据库

(6):运行

scrapy crawl quotespider。

最新文章

  1. Javascript-DOM总结
  2. Git 的深入理解与GitHub托管服务(转)
  3. css3新增的属性选择器
  4. iOS LoginDemo
  5. Swift标示符以及关键字
  6. sass小总结
  7. asp.net mvc Ajax.BeginForm不能异步刷新,或转到新页面,或页面还是刷新了,的原因(或解决办法)(转)
  8. ios空模板配置
  9. OPNET中FIN,FOUT以及FRET的作用 分类: opnet 2014-05-12 16:07 144人阅读 评论(0) 收藏
  10. xx学院学员评优评奖管理系统
  11. Python爬虫入门教程 56-100 python爬虫高级技术之验证码篇2-开放平台OCR技术
  12. MyBatis-Plus学习笔记
  13. WPF:如何高速更新Model中的属性
  14. 请输入经过encode编码的URL
  15. [Tensorflow] Object Detection API - prepare your training data
  16. 大数据开发实战:HDFS和MapReduce优缺点分析
  17. iOSAFNetworking 网络请求
  18. C语言 · 猜灯谜
  19. 【传输协议】https SSL主流数字证书都有哪些格式?
  20. MySQL性能调优与架构设计——第10章 MySQL数据库Schema设计的性能优化

热门文章

  1. JNI创建共享内存导致JVM terminated的问题解决(segfault,shared memory,内存越界,内存泄漏,共享内存)
  2. 使用Jenkins的Git Parameter插件来从远程仓库拉取指定目录的内容
  3. 递推问题 hdu 2046 与1143的比对
  4. JavaScript内置一些方法的实现原理--new关键字,call/apply/bind方法--前戏
  5. What is Verbose Garbage Collection (verbosegc) and How do I Enable it on WebLogic
  6. STM8 uart1
  7. Eclipse workspace被锁定
  8. Spring之AOP原理、代码、使用详解(XML配置方式)
  9. Gitlab-CI +Docker + Docker-Compose构建可持续集成java项目的镜像
  10. 理解ld-linux.so.2