新建项目

在需要新建项目的目录下发指令

scrapy startproject MySpider

其中MySpider为工程的名字,会新建一个文件夹

进入工程目录

新建一个爬虫

scrapy genspider test "www.baidu.com"

test是爬虫名字

网址是允许爬取的网站,不需要带HTTP://

执行爬虫文件:

scrapy crawl test

test是爬虫名字

如何在pycharm下直接点RUN运行

只需要在pycharm中的Run下Edit Configurations...中做运行配置即可



这样就可以直接点RUN,看效果,不用去再输入指令了

scrapy保存信息方法(也可以管道文件内写保存):

# json格式,默认为unicode编码
scrapy crawl test -o test.json
# csv 逗号表达式,可以用excel打开
scrapy crawl test -o test.csv
#xml格式
scrapy crawl test -o test.xml

工程内的文件总结:

  • items.py 主要声明的类的键s
  • spiders文件夹下写爬虫,爬取数据 yield item返回给管道
  • pipelines.py 获取到item处理,可以做保存处理等
  • settings.py 可以使能管道等设置信息

最新文章

  1. 骑士游历/knight tour - visual basic 解决
  2. [stm32] 中断
  3. JavaScript 上万关键字瞬间匹配——借助Hash表快速匹配
  4. Office Web Apps资源
  5. static_cast, dynamic_cast, const_cast
  6. Linux常用命令(持续更新中)
  7. OpenGL的几何变换3之内观察全景图
  8. 全注解的SSH框架
  9. ZOJ 3396 Conference Call(3点最小生成树)
  10. 解决了jQuery插件未能导入到项目之中
  11. Ubuntu vim+ ctags(包含系统函数) + taglist 配置 分类: vim ubuntu 2015-06-09 18:19 195人阅读 评论(0) 收藏
  12. WPF 格式化输出- IValueConverter接口的使用
  13. 优雅的让Fragment监听返回键
  14. 关闭ES动态创建type
  15. Node.js模块 加载笔记
  16. ado.net数据库操作(2)
  17. ODP.NET 之访问 Oracle 数据库
  18. solr 搜索引擎查询
  19. ACL权限控制列表
  20. Xcode 7 你能不能再抗扎腾点儿呢 - 尤其自个儿强制升级后,没事儿就关闭

热门文章

  1. ModelSim6.2 설치에 관한(About the Installation problem of ModelSim 6.2)
  2. objc_runtime使用方法的几个简单例子(转)
  3. 设备树API
  4. python 开发技巧(4)-- 用PyCharm实用技巧(我自己常用的)
  5. Starting Tomcat v7.0 Server at localhost' has encountered a problem. 如何解决
  6. Memcached 常见的问题
  7. Hadoop科普文—常见的45个问题解答 · Hadoop
  8. sqlserver tips
  9. SharpZIP Lib
  10. [Spring MVC]学习笔记--@RequestMapping