Scrapy Architecture

Creating a Spider.

  Spiders are classes that you define that Scrapy uses to scrape(extract) information from a website(s).

import scrapy

class QuoteSpider(scrapy.Spider):
name = "quote"
start_urls = [
'https://bluelimelearning.github.io/my-fav-quotes/'
] def parse(self, response):
for quote in response.css('div.quotes'):
yield{
'quote':quote.css('p.aquote::text').extract(),
'author':quote.css('p.author::text').extract_first(),
}

Running your spider and saving scrapped data.

scrapy runspider quotes_spiders.py -o quotes.xml

https://www.cleancss.com/strip-xml/

Scraping data with Scrapy Shell

scrapy shell "https://bluelimelearning.github.io/my-fav-quotes/"

response.css('title')

response.css('title::text').extract()

response.css('h1::text').extract()

quote = response.css("div.quotes")[]
aquote = quote.css("p.aquote::text").extract()
aquote

最新文章

  1. Ibator的配置和使用
  2. QT QString 很全的使用 (转)
  3. selenium--环境搭建步骤
  4. HTML5中表单的创建
  5. SqlSever基础 union 将得到的横表变为纵表
  6. Linux高级使用功能
  7. CSS3 transition规范的实际使用经验
  8. 最新game
  9. 黑马程序员_static\访问权限\单例模式 大汇总
  10. 二级横向菜单实现——ListView
  11. 笔记整理--玩转robots协议
  12. window.close()方法对谷歌和火狐浏览器无效
  13. scrapy meta信息丢失
  14. 项目设计day1
  15. 一个简单的Code First建立
  16. iOS - 国内注册境外 Apple id 账号
  17. 在Kubernetes集群中安装Helm及证书认证
  18. Win10系列:UWP界面布局基础7
  19. Evolution(矩阵快速幂)zoj2853
  20. Python配置tab自动补全功能

热门文章

  1. 用VC++6.0,双击主对话框中的按钮时,不能跳转到代码处
  2. liunx 常用快捷键
  3. Django的F查询和Q查询,事务,ORM执行原生SQL
  4. 腾讯IEG--2020春招实习
  5. 入门大数据---Spark_Transformation和Action算子
  6. 自定义Springboot全局异常类
  7. 豆瓣Top250爬取
  8. 洛谷 P4822 [BJWC2012]冻结
  9. 创建windows窗口
  10. abp + vue 模板新建页面