scrapy框架是Python爬虫的一个使用起来不错的框架,通过这个框架可以很快的爬出自己想要的数据

官方的定义是如下的图片,其实看不太懂

在平常使用这个框架的时候,主要用三部分,spider爬虫主体,在这里面写爬虫程序,items定义爬虫对象,pipeline对象输出管道,可以设置多个管道,,注意,使用pipeline管道时候得在setting.py中开启管道的设置,默认注释掉。

在使用scrapy框架前得先安装pywin32和下面这个Twisted模块,安装教程网上一大堆,一般只要下载好自己电脑对应的版本就不会出什么大问题

我使用的是这个版本

pip install Twisted-18.4.0-cp36-cp36m-win_amd64.whl // 先安装,否则直接安装scrapy会报错

pip install –U scrapy

安装成功后就可以开始自己的第一个scrapy程序了

在pycharm自带的Terminal中输入

scrapy startproject 工程名

cd  工程名

scrapy genspider 工程名 要爬取的网站

然后就是写爬虫主程序 spider.py 更改items 更改输出管道 pipeline

最后在terminal中输出 scrapy crawl 主程序中的name 执行scrapy

这样一个基本的scrapy框架就完事了

下面是最基本的文件树

最新文章

  1. Androidannotations框架
  2. [Math] Backpropagation
  3. sudo apt-get install apache2 php7.0 php7.0-mysql mysql-server
  4. 【bzoj1036】[ZJOI2008]树的统计Count
  5. 团队开发——冲刺1.d
  6. 刚查了,Z3795不支持EPT,即WP8开发必须的SLAT,看来只能作为简单的WINDOWS备机了
  7. JAVA设计模式--State(状态模式)
  8. jvm调优具体参数配置
  9. PureMVC(JS版)源码解析(一):观察者模式解析
  10. EC读书笔记系列之14:条款26、27、28、29、30、31
  11. 配置QtCreator+CDB远程调试环境(要设置_NT_SYMBOL_PATH和QT_PLUGIN_PATH和Path)
  12. KnockoutJS-绑定元素
  13. python工程师成长之路精品课程(全套)
  14. Python进阶8---面向对象基础1
  15. springboot秒杀课程学习整理1-5
  16. TF版本的Word2Vec和余弦相似度的计算
  17. jQuery动态添加删除与添加表行代码
  18. 为什么CPU的主频止步于4GHz?
  19. SSM 项目搭建 (IDEA)
  20. 中点Brehensam画线算法

热门文章

  1. matlab绘图(详细)(全面)
  2. Matlab函数——awgn(高斯噪声)
  3. 一个简单的 HTML 文档,带有最基本的必需的元素
  4. Python3基本数据类型(三、列表)
  5. Jmeter入门2 http请求—简单的get请求
  6. google Cayley图谱数据库初试
  7. HDU 4117 GRE Words
  8. Android进阶笔记12:ListView篇之图片优化
  9. 2018.12.15 struts.xml 一般配置文件写法 && 配置动态方法
  10. unbuntu循环登录