Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。

安装scrapy

pip3 install scrapy

在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS):
pip3 install wheel
下载twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
进入下载目录,执行  pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
pip3 install pywin32
pip3 install scrapy

项目创建与启动

#scrapy项目创建
scrapy startproject xxx(项目名)-----创建爬虫项目
cd xxx(项目名)--------必须要进入项目文件
scrapy genspider xx(爬虫文件) url(起始url,后期可修改)--------创建爬虫应用
#scrapy项目启动
scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录
scrapy crawl 爬虫文件 --nolog:该种执行形式不会显示执行的日志信息

    

    

 项目中创建的默认爬虫文件
 import scrapy

 class FirstbaiduSpider(scrapy.Spider):
name = 'firstBaidu'#爬虫文件(应用)名
# allowed_domains = ['https://www.baidu.com/']#域名限定,一般直接注释
start_urls = ['https://www.baidu.com//']#起始url,创建应用时指定的,可修改 def parse(self, response):#自动访问起始URL并获取结果后的回调函数,参数respons为起始请求的响应对象,可以直接调用封装好的xpath解析
pass

默认创建的爬虫文件

 

 

最新文章

  1. JQuery中each()的使用方法说明
  2. 【Theano】安装Theano
  3. C#开源资源项目
  4. swfit-pod使用
  5. POJ 1743 Musical Theme(后缀数组)
  6. 3.1 全局存储带宽与合并访问 -- Global Memory(DRAM) bandwidth and memory coalesce
  7. MVC 音乐商店 第 9 部分: 注册和结帐
  8. 鸟哥的linux私房菜学习-(五)Linux系统的在线求助man page与info page
  9. go语言模版编程
  10. 搭建一个舒适的 .NET Core 开发环境
  11. MyBatis 分页之拦截器实现
  12. 训练赛第二场E题 Cottage Village
  13. executeBatch()批量执行Sql语句
  14. db2 存储过程中的玩意
  15. Java之初学异常
  16. boost pool 和 object_pool
  17. docker-machine windows
  18. Django 1.6在Windows平台下的配置
  19. Webservice工作原理及实例
  20. nginx相关关键词

热门文章

  1. Linux系统curl获取公网ip
  2. vue2.x学习笔记(三十)
  3. CSS样式1
  4. Windows 10 MSDN官方原版ISO镜像(简体中文)下载
  5. IIS6服务器的请求流程(图文&源码)
  6. A Tile Painting(循环节)
  7. Jenkins 构建 Jmeter 项目之源代码管理(SVN)
  8. mysql5.7 修改密码,修改权限
  9. 工厂模式(factory pattern)
  10. python恺撒密码 与 字符串反码 【chr()与ord()函数的两种不同应用】