1、简介:

  scrapy 是用python写成的一个web 爬虫框架,scrapy 会把大多数在爬取网站时的通用的事给自动化的做了;我最开始爬别人的网站的时候

  用的是requests这个库,用这个库我要自己发出请求的代码,自己写得到响应的代码;然而我真正要做的事是,处理响应中的内容,并抽取

  出我想要的数据;scrapy 可以把我们从这种能用的逻辑中抽身出来,真正的对应对业务逻辑。

2、安装:

pip3 install scrapy

  这自己的环境用的是python-3.6.2 在python3.x 这版中官方推荐用的python包管理软件就是pip、所以我这也就用的它;

  由于python-3.6.2刚出来没有多久,Twisted 这个包的最新版本还没有内置到python-3.6.2中,

  如果你的在安装中遇到了Twisted版本过于太低的问题,可能要对Twisted进行源码安装。

3、使用:

  scrapy 在使用过程中也有一些固定的套路,大概分三步走,1 创建scrapy项目,2 为创建的项目加入爬虫(也就是爬取网站的处理逻辑),3 启动爬虫

4、查看安装成功与否:

[jianglexing@workstudio financedatas]$ scrapy version
Scrapy 1.4.

 

----

最新文章

  1. 【BZOJ-3270】博物馆 高斯消元 + 概率期望
  2. .dwg(sw)-exb
  3. 优秀的技术Leader
  4. nodejs2
  5. paper 1:图像特征提取
  6. 1.项目开发-->Memcached之ASP.NET实现
  7. Windows下使用Visual Studio 2010编译ffmpeg全过程
  8. Text Kit入门
  9. 过滤掉html 标签
  10. PHP去除Notice警告提示
  11. TCP和UDP的差别
  12. css小随笔(二)与通用样式
  13. Android Studio集成Genymotion
  14. 通过模拟JDK中的动态代理,由浅入深讲解动态代理思想.
  15. 通过Excel生成PowerDesigner表结构设计
  16. Java 转JSON串
  17. 二十、Flyweight 享元模式
  18. linux 下面压缩、解压.rar文件
  19. sonar-gerrit plugin配置
  20. Oracle awr报告生成操作步骤

热门文章

  1. 刀片服务器和磁盘阵列卡(RAID)技术---永和维护(转)
  2. TQ2440之定时器中断0——volatile关键字的重要作用
  3. TFS2012强制解除迁出(数据库操作方式)
  4. 转:VB 6 在IE7以上版本机器上出现ieframe.dll 文件找不到问题
  5. chrome插件的popup与跨域请求
  6. spring jdbc连接数据库
  7. mac SVN 设置代理
  8. JProfiler_SN_8_x key
  9. 修改模块搜索路径(注意:py运行完毕,就会失效,他只是临时产生效果)
  10. Loadrunner脚本回放 场景运行过程中常见错误分析