scrapy使用笔记
2024-08-26 18:24:09
新建项目
在需要新建项目的目录下发指令
scrapy startproject MySpider
其中MySpider为工程的名字,会新建一个文件夹
进入工程目录
新建一个爬虫
scrapy genspider test "www.baidu.com"
test是爬虫名字
网址是允许爬取的网站,不需要带HTTP://
执行爬虫文件:
scrapy crawl test
test是爬虫名字
如何在pycharm下直接点RUN运行
只需要在pycharm中的Run下Edit Configurations...中做运行配置即可
这样就可以直接点RUN,看效果,不用去再输入指令了
scrapy保存信息方法(也可以管道文件内写保存):
# json格式,默认为unicode编码
scrapy crawl test -o test.json
# csv 逗号表达式,可以用excel打开
scrapy crawl test -o test.csv
#xml格式
scrapy crawl test -o test.xml
工程内的文件总结:
- items.py 主要声明的类的键s
- spiders文件夹下写爬虫,爬取数据 yield item返回给管道
- pipelines.py 获取到item处理,可以做保存处理等
- settings.py 可以使能管道等设置信息
最新文章
- 骑士游历/knight tour - visual basic 解决
- [stm32] 中断
- JavaScript 上万关键字瞬间匹配——借助Hash表快速匹配
- Office Web Apps资源
- static_cast, dynamic_cast, const_cast
- Linux常用命令(持续更新中)
- OpenGL的几何变换3之内观察全景图
- 全注解的SSH框架
- ZOJ 3396 Conference Call(3点最小生成树)
- 解决了jQuery插件未能导入到项目之中
- Ubuntu vim+ ctags(包含系统函数) + taglist 配置 分类: vim ubuntu 2015-06-09 18:19 195人阅读 评论(0) 收藏
- WPF 格式化输出- IValueConverter接口的使用
- 优雅的让Fragment监听返回键
- 关闭ES动态创建type
- Node.js模块 加载笔记
- ado.net数据库操作(2)
- ODP.NET 之访问 Oracle 数据库
- solr 搜索引擎查询
- ACL权限控制列表
- Xcode 7 你能不能再抗扎腾点儿呢 - 尤其自个儿强制升级后,没事儿就关闭
热门文章
- ModelSim6.2 설치에 관한(About the Installation problem of ModelSim 6.2)
- objc_runtime使用方法的几个简单例子(转)
- 设备树API
- python 开发技巧(4)-- 用PyCharm实用技巧(我自己常用的)
- Starting Tomcat v7.0 Server at localhost' has encountered a problem. 如何解决
- Memcached 常见的问题
- Hadoop科普文—常见的45个问题解答 &;#183; Hadoop
- sqlserver tips
- SharpZIP Lib
- [Spring MVC]学习笔记--@RequestMapping