scrapy的最通用的爬虫流程:UR2IM

  U:URL

  R2:Request 以及 Response

  I:Item

  M:More URL

在scrapy shell中打开服务器一个网页

  cmd中执行:scrapy shell http://www.baidu.com    (可以使用exit()退出)

  

  

此时,scrapy执行一个默认的GET请求,并得到一个状态码为200的响应

可以使用response.body打印页面源码(或部分字符)

例:response.body[:50]

  

同时,也可使用response.xpath('  ')来测试XPath表达式的效果

例:response.xpath('//*[@id="su"]')          获取百度一下按钮处的源码

  

  response.xpath('//*[@id="su"]').xpath('.//@value')       获取上述局部源码中的value属性值

  注:.//@value是相对XPath表达式;用于获取selector的得到的局部源码中的信息

  

  response.xpath('//*[@id="su"]').xpath('.//@value').extract()        获取上述结果中的源码(源码不等于selector,等于data值)

  

下一步操作是:从响应中将数据抽取到Item的字段中(通常使用/text()获取文本字段)

  通常,我们使用//*[@id="su"][1]这种形式。

  目的:为防止结尾某些细微之处的嵌套信息没有注意到

最新文章

  1. 【BZOJ 4547】【HDU 5157】小奇的集合
  2. poj 2926:Requirements(最远曼哈顿距离,入门题)
  3. HTMl5/CSS3/Javascript 学习推荐资源
  4. 详解公用表表达式(CTE)
  5. ruby 字符串学习2
  6. Headfirst设计模式的C++实现——策略模式(Strategy)
  7. java制作证书的工具keytool用法
  8. jquery提示气泡
  9. Intel项目Java小记
  10. Android Activity 分类
  11. iOS开发之AsyncSocket使用教程
  12. TCMalloc
  13. NSRunLoop原理详解——不再有盲点
  14. String 类的实现(3)引用计数实现String类
  15. nuget挂了吗?
  16. 使用Jenkins时,如果GIT_COMMIT无变化,跳过构建
  17. 关于 IdentityServer4 中的 Jwt Token 与 Reference Token
  18. java web(三):ServletContext、session、ServletConfig、request、response对象
  19. 7.8 GRASP原则八: 间接 Indirection
  20. SQL Server的一些小问题

热门文章

  1. ubuntu 安装nodejs和git
  2. SpringBoot页面访问处理
  3. Linux 命令行 发送邮件
  4. 薄弱的交互页面之新浪微博到博客的储存型xss漏洞
  5. OWASP出品:Xenotix XSS漏洞测试框架及简单使用
  6. Debian/Kali 安装原生Firefox
  7. 在switch中的case语句中声明变量编译出错的解决方案
  8. HTTP 中状态码 302的使用场景
  9. springmvc(2)处理器设配器和映射器
  10. JDBC(4)PreparedStatement