Python之Scripy框架
2024-10-19 00:31:22
为什么要用到cmd界面 --- 在这里操作的是Scripy框架的指令,不是Python代码
Parse --- Scripy的回调函数
fiddler --- 用于爬取JS存储数据的页面
项目:
1. 创建一个scrapy项目
cmd--进入scrapy.exe目录--scrapy startproject TestScrapy
项目将和scrapy.exe在同一个目录下
2. 创建爬虫,一个项目可以有多个爬虫
在TestScrapy项目的spiders目录下,可以创建自己的spider
(或者用Scrapy命令:scrapy genspider -t basic MySpider dangdang.com 然后把生成的.py复制到/TestScrapy/TestScrapy/spiders/下)
3. 然后用pyCharm打开项目
4. 运行Scripy框架 在cmd中,用..\..\..\scrapy crawl DangSpider [--nolog]
注意: spider爬取到的Item是字典型, 字典型可以直接存入到MongoDB,但是不能存入到关系数据库
固定的配置信息,都可以写在setting.py文件里
最新文章
- JS判断网页是否在微信中打开/
- linux系统中批量查找文件与文件内容的方法
- apache php env build
- 161011、oracle批量插入数据
- sql server 数据页缓冲区的内存瓶颈分析
- 聚集索引、非聚集索引、聚集索引组织表、堆组织表、Mysql/PostgreSQL对比、联合主键/自增长、InnoDB/MyISAM(引擎方面另开一篇)
- Linq to SQL只支持SQL Server(所选对象使用不支持的数据提供程序)
- 第三方:GDataXMLNode:xml解析库--备用
- 尚未解决的intellij问题:补充措施
- android 为TextView添加边框
- gitLab添加ssh key
- Myeclipse 10 for mac 破解版下载安装及破解方法
- Undefined symbols for architecture i386: ";_crc32";, referenced from:——crc链接错误
- [转]我在面试.NET/C#程序员时会提出的问题
- Hadoop记录- Yarn Job MAX
- dubbo服务达成jar包
- vue--显示和隐藏
- float:浮点型double:双精度实型decimal:数字型单精度浮点数(Single)双精度浮点数(double)
- maven安装及与eclipse集成
- 005 jquery过滤选择器-----------(内容过滤选择器)
热门文章
- ArcGIS API For Javascript_4.8-渲染器SimpleRenderer
- cesium 之图层管理器篇(附源码下载)
- Api管家系列(二):编辑和继承Class
- Windows Server 2016-图形化新建域用户(一)
- Storm入门(十三)Storm Trident 教程
- 开源干货!!!.NET Core + JWT令牌认证 + Vue.js(iview-admin) 通用动态权限(RBAC)管理系统框架[DncZeus]开源啦!!!
- Linux 桌面玩家指南:14. 数值计算和符号计算
- Workbooks 对象的 Open 方法参数说明
- javascript ES6 新特性之 扩展运算符 三个点 ...
- 【Android Studio安装部署系列】十八、Android studio更换APP应用图标