一.安装依赖

#Windows平台
1、pip3 install wheel
3、pip3 install lxml
4、pip3 install pyopenssl
5、pip3 install pywin32 #如果不行去官网https://sourceforge.net/projects/pywin32/files/pywin32/
6、pip3 install twisted #如果不行去官网:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted
7、pip3 install scrapy #Linux平台
1、pip3 install scrapy

二.命令

#1 查看帮助
scrapy -h
scrapy <command> -h #2 有两种命令:其中Project-only必须切到项目文件夹下才能执行,而Global的命令则不需要
Global commands:
startproject #创建项目
genspider #基本上都要cd项目目录,scrapy genspider 名称 url
settings #如果是在项目目录下,则得到的是该项目的配置
runspider #运行一个独立的python文件,不必创建项目
shell #scrapy shell url地址 在交互式调试,如选择器规则正确与否
fetch #独立于程单纯地爬取一个页面,可以拿到请求头
view #下载完毕后直接弹出浏览器,以此可以分辨出哪些数据是ajax请求
version #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依赖库的版本
Project-only commands:
crawl #运行爬虫,必须创建项目才行,确保配置文件中ROBOTSTXT_OBEY = False
check #检测项目中有无语法错误
list #列出项目中所包含的爬虫名
edit #编辑器,一般不用
parse #scrapy parse url地址 --callback 回调函数 #以此可以验证我们的回调函数是否正确
bench #scrapy bentch压力测试 #3 官网链接
https://docs.scrapy.org/en/latest/topics/commands.html

crawl运行爬虫程序如果不打印日志

scrapy crawl 爬虫程序中的name --nolog

三.文件说明

  • scrapy.cfg 项目的主配置信息,用来部署scrapy时使用,爬虫相关的配置信息在settings.py文件中。
  • items.py 设置数据存储模板,用于结构化数据,如:Django的Model
  • pipelines 数据处理行为,如:一般结构化的数据持久化
  • settings.py 配置文件,如:递归的层数、并发数,延迟下载等。强调:配置文件的选项必须大写否则视为无效****,正确写法USER_AGENT='xxxx'
  • spiders 爬虫目录,如:创建文件,编写爬虫规则

最新文章

  1. Kotlin中变量不同于Java: var 对val(KAD 02)
  2. jquery_ui_api中文
  3. php请求返回GeoJSON格式的数据
  4. MySql中添加用户,新建数据库,用户授权,删除用户,修改密码
  5. ERROR Cannot determine the location of the VS Common Tools Folder
  6. php在没用xdebug等调试工具的情况下如何让调试内容优雅地展现出来?--php数组格式化
  7. android user版本默认开启调试模式
  8. 1-11 ICMP协议
  9. PlayFramework 1.2.x 在Controller 中识别JSON提交
  10. [HDOJ4609]3-idiots(FFT,计数)
  11. 【Linux C中文函数手册】之 目录操作函数
  12. 正则Match
  13. C++ sizeof操作符的用法和strlen函数的区别
  14. 【转】perl ping检测功能脚本代码
  15. PHP_CURL请求教程, 内含简单粗暴curl
  16. Android开发匹配字符笔记
  17. java.lang.NoSuchMethodError: org.springframework.beans.factory.annotation.InjectionMetadata.&lt;init&gt;(L
  18. Manual | BSD手册| Linux手册 | 数据库手册 | 编程开发手册 | WEB开发手册 | 软件应用手册 | 网络技术手册 | GNU手册
  19. chorme浏览器的Access-Control-Allow-Origin拦截限制
  20. DAY1 VS2017&amp;CUDA10.01环境搭建

热门文章

  1. 《Java基础知识》Java技术总结
  2. 《Java基础知识》Java标示符、保留字和数制
  3. [ASP.NET Core 3框架揭秘] 依赖注入[4]:一个Mini版的依赖注入框架
  4. python连接sqlserver和MySQL实现增删改查
  5. 百度大脑UNIT3.0解读之对话式文档问答——上传文档获取对话能力
  6. oracle 字符串转为数字排序
  7. 【目录】Cocos2d-x系列
  8. 解决JRebel对myBatis Mapper 失效的问题
  9. IT兄弟连 HTML5教程 CSS3属性特效 3D变换1
  10. 精通awk系列(1):安装新版本的gawk