爬虫框架Scrapy 的使用
2024-09-05 12:36:19
一.官网链接 https://docs.scrapy.org/en/latest/topics/architecture.html
二.Scrapy 需要安装的包
#Windows平台 # pip3 install scrapy 如果不能安装安装下面的 安装即可
1、pip3 install wheel #安装后,便支持通过wheel文件安装软件,wheel文件官网:https://www.lfd.uci.edu/~gohlke/pythonlibs 3、pip3 install lxml 4、pip3 install pyopenssl 5、下载并安装pywin32:https://sourceforge.net/projects/pywin32/files/pywin32/ 安装pywin32 6、下载twisted的wheel文件:http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted 安装wheel 7、执行pip3 install 下载目录\Twisted-17.9.0-cp36-cp36m-win_amd64.whl 也可直接settings 中安装 Twisted 8、pip3 install scrapy #Linux平台 1、pip3 install scrapy
三.命令行工具
创建项目只能cmd终端中用命令来创建
cd 到我们要创建的项目文件夹中 scrapy startproject myscrapy
#1 查看帮助 scrapy -h scrapy <command> -h #2 有两种命令:其中Project-only必须切到项目文件夹下才能执行,而Global的命令则不需要 Global commands: startproject #创建项目 scrapy startproject myscrapy # 项目爬虫名 爬取的域名 genspider #创建爬虫程序 scrapy genspider cnblogs cnblogs.com settings #如果是在项目目录下,则得到的是该项目的配置 runspider #运行一个独立的python文件,不必创建项目 shell #scrapy shell url地址 在交互式调试,如选择器规则正确与否 fetch #独立于程单纯地爬取一个页面,可以拿到请求头 view #下载完毕后直接弹出浏览器,以此可以分辨出哪些数据是ajax请求 version #scrapy version 查看scrapy的版本,scrapy version -v查看scrapy依赖库的版本 Project-only commands: crawl #运行爬虫,必须创建项目才行,确保配置文件中ROBOTSTXT_OBEY = False check #检测项目中有无语法错误 list #列出项目中所包含的爬虫名 edit #编辑器,一般不用 parse #scrapy parse url地址 --callback 回调函数 #以此可以验证我们的回调函数是否正确 bench #scrapy bentch压力测试 #3 官网链接 https://docs.scrapy.org/en/latest/topics/commands.html
四 项目结构以及爬虫应用简介
今日终结
回顾: -selenium -自动化测试 -显示和隐示等待 -寻找控件的方法 -id -css选择器 -xpath -对控件进行操作 -赋值 -点击 -获取cookie(重要) -搭建自己的cookie池 -验证码、加密 -用程序破解 -打码平台 -自己识别 -破解知乎登陆 -python执行js代码 -js动态调式 -动作链 -执行js -前进后台 -选项卡切换 -爬取京东商品信息 -css选择器 -request-html -手机爬虫 今日内容: -mongodb -操作 -scrapy -安装 -pip3 install scrapy -先装Twisted -装pywin32 -新建项目 -scrapy startproject 项目名字 -新建爬虫 -scrapy genspider 爬虫名 爬取的域名 -项目目录介绍 -spiders -所有的爬虫程序 -items.py -类似于django的model类 -middlewares.py -中间件 -pipelines.py -持久化相关 -settings.py -配置文件 -scrapy.cfg -部署相关 -运行爬虫 -scrapy crawl cnblogs --nolog -爬取数据 //*[@id="post_list"]/div[1] 实际工作流程: -正常情况:公司配电脑 -配mac -配台式、配windows笔记本 -乌班图系统 -到公司 -git账号:码云、gitlab,github -代码拉下来 -跑起代码来 -模块装不上:wheel文件安装 -写代码 -提交到git -nginx+uwsgi+django -uwsgi把django项目跑起来 -前端人员要跟你联调 -测试人员会提交bug -修复bug,提交,再测试 -发布版本
最新文章
- IOS学习笔记之获取Plist文件读取数据
- Unity3D 装备系统学习Inventory Pro 2.1.2 基础篇
- struts2 struts1.x 区别
- iOS9的一些问题
- hibernate一对多映射实现
- CentOS中配置LNMP环境打开提示File not found
- 用任务管理器画CPU正弦曲线
- Asp.net 身份验证方式?
- 【转】linux常用命令全集
- 通过button提交表单
- information_schema.collation_character_set_applicability 学习
- WEB开发:如何用js来模拟服务器的ajax响应,不依赖服务器来编写前端代码
- 黄聪:VPS用轻松备份工具备份Wordpress,文件夹通配符
- “京东金融”主页效果 RecyclerView联动
- mingw编译ffmpeg 错误:Unknown option ";--enable-memalign-hack";
- POJ 2410
- MySQL主主复制以及使用keepalived保证高可用
- 绘图:Matplotlib
- Unity3D笔记 愤怒的小鸟<;七>; 小鸟群准备动画
- app服务端server端数据库设计
热门文章
- 吐血整理,一文读懂中国金融衍生品市场的前世今生和未来[z]
- [NodeJS] 优缺点及适用场景
- RSA签名、验签、加密、解密
- 页面Demo实现
- [转] An In-Depth Look at the HBase Architecture - HBase架构深度剖析
- Datafactory 实际使用案例
- Django 邮箱找回密码!!!!!!!!!!!!!!!!
- @Conditional注解
- Cisco 三层交换机划分VLan与普通路由器连接配置
- 非常好的一个JS代码(FixedMenu.htm)