scrapy框架简介与安装启动
2024-10-09 03:02:33
Scrapy 是一个专业的、高效的爬虫框架,它使用专业的 Twisted 包(基于事件驱动的网络引擎包)高效地处理网络通信,使用 lxml(专业的 XML 处理包)、cssselect 高效地提取 HTML 页面的有效信息,同时它也提供了有效的线程管理。
安装scrapy
pip3 install scrapy
在windows如果报错的话按以下方式安装(缺少环境,或者直接下载VS):
pip3 install wheel
下载twisted https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
进入下载目录,执行 pip3 install Twisted‑17.1.0‑cp35‑cp35m‑win_amd64.whl
pip3 install pywin32
pip3 install scrapy
项目创建与启动
#scrapy项目创建
scrapy startproject xxx(项目名)-----创建爬虫项目
cd xxx(项目名)--------必须要进入项目文件
scrapy genspider xx(爬虫文件) url(起始url,后期可修改)--------创建爬虫应用
#scrapy项目启动
scrapy crawl xx(爬虫文件)----需要进入爬虫文件所在的目录scrapy crawl 爬虫文件 --nolog:该种执行形式不会显示执行的日志信息
项目中创建的默认爬虫文件
import scrapy class FirstbaiduSpider(scrapy.Spider):
name = 'firstBaidu'#爬虫文件(应用)名
# allowed_domains = ['https://www.baidu.com/']#域名限定,一般直接注释
start_urls = ['https://www.baidu.com//']#起始url,创建应用时指定的,可修改 def parse(self, response):#自动访问起始URL并获取结果后的回调函数,参数respons为起始请求的响应对象,可以直接调用封装好的xpath解析
pass
默认创建的爬虫文件
最新文章
- JQuery中each()的使用方法说明
- 【Theano】安装Theano
- C#开源资源项目
- swfit-pod使用
- POJ 1743 Musical Theme(后缀数组)
- 3.1 全局存储带宽与合并访问 -- Global Memory(DRAM) bandwidth and memory coalesce
- MVC 音乐商店 第 9 部分: 注册和结帐
- 鸟哥的linux私房菜学习-(五)Linux系统的在线求助man page与info page
- go语言模版编程
- 搭建一个舒适的 .NET Core 开发环境
- MyBatis 分页之拦截器实现
- 训练赛第二场E题 Cottage Village
- executeBatch()批量执行Sql语句
- db2 存储过程中的玩意
- Java之初学异常
- boost pool 和 object_pool
- docker-machine windows
- Django 1.6在Windows平台下的配置
- Webservice工作原理及实例
- nginx相关关键词
热门文章
- Linux系统curl获取公网ip
- vue2.x学习笔记(三十)
- CSS样式1
- Windows 10 MSDN官方原版ISO镜像(简体中文)下载
- IIS6服务器的请求流程(图文&源码)
- A Tile Painting(循环节)
- Jenkins 构建 Jmeter 项目之源代码管理(SVN)
- mysql5.7 修改密码,修改权限
- 工厂模式(factory pattern)
- python恺撒密码 与 字符串反码 【chr()与ord()函数的两种不同应用】