上一卷中介绍了安装过程,现在我们开始使用这个神奇的框架

跟很多博主一样我也先选择一个非常好爬取的网站作为最初案例,那么我先用屌丝必备网站http://www.shaimn.com/xinggan/作为这一卷的案例,不用想有图,有字

第一步:

创建爬虫文件:

现在切换到scrapy_test的根目录下:

我们现在创建了爬虫文件,这个网页正常情况下就可以直接抓取,不像糗事啊,天猫啊需要到SETTING里去设置对抗ROBOT cookie user-AGENT这样的反爬手段

现在开始创建代码

现在在终端切换到爬虫文件的目录中

执行命令:

scrapy crawl crawler1 --nolog

--nolog是为了隐藏日志文件时我添加的命令语句,因为这个网页过于简单,所以为了方便数据的展示,我加了这句语句,但是如果抓取复杂的网站时我建议添加,一旦出问题可以立马发现问题的所在:

现在看下结果:

这样这个网页就爬了下来,但是数据内容不精准,我相信没有人会把别让人的所有网页代码拿来用,要用的是其中的数据,图片,视频,音频等内容

最新文章

  1. 2016huasacm暑假集训训练四 数论_A
  2. Js控制iFrame切换加载网址
  3. 第四课 Activity
  4. Notes of the scrum meeting(12.7)
  5. html-----004
  6. 生产者、消费者 C源码,gcc编译通过
  7. apache-maven-3.2.1设备
  8. Weka初步
  9. Zepto源码分析-event模块
  10. Head First设计模式之状态模式
  11. MySQL/MariaDB数据库忘掉密码解决办法--技术流ken
  12. Windows SFTP 的安装
  13. 采用ftpServer构建嵌入式ftp服务器时设置pass功能
  14. mybatis异常解决:class path resource [SqlMapConfig.xml] cannot be opened because it does not exist
  15. iOS UI布局-VFL语言
  16. 定时释放Linux/CentOS缓存
  17. [UE4]继承标准控件
  18. Run ASP.NET MVC site on mac (mono/xamarin studio)
  19. ftp协议及vsftpd的基本应用
  20. python列表推导式详解 列表推导式详解 字典推导式 详解 集合推导式详解 嵌套列表推导式详解

热门文章

  1. django2:路由path语法
  2. VCRedist_x86.exe Vcredist_x64.exe
  3. JQuery局部刷新与全页面刷新
  4. this关键字使用注意事项
  5. 显著水平|区间估计|假设检验|显著性|第一类错误|Ⅱ类错误|β错误|t检验|连续性矫正|二项分布的假设检验|样本百分率|
  6. 测试Java程序执行耗费的时间
  7. 第04项目:淘淘商城(SpringMVC+Spring+Mybatis) 的学习实践总结【第六天】
  8. Underscore _.template 方法使用详解
  9. Django框架的前奏(安装及介绍)
  10. 基于rtmp的移动端推流解决方案