XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。

XPath 包含一个标准函数库。

XPath 是一个 W3C 标准。

语法简介:

http://www.runoob.com/xpath/xpath-syntax.html

节点介绍:

父节点/子节点/同胞节点/先辈节点/后代节点

语法:

提取title

#这里注意修改start_urls

    def parse(self, response):

        title1 = response.xpath("/html/body/div[3]/div[3]/div[1]/div[1]/h1")  #这里根据网页源码第一个div应为1
#title2 = response.xpath('//*[@id="post-112265"]/div[1]/h1/text()')
title = response.xpath('//div[@class="entry-header"]/h1/text()').extract()[0] #extract提取为数组,然后获取第一个值

断点调试与scrapy shell

提取时间

        date = response.xpath("//p[@class='entry-meta-hide-on-mobile']/text()").extract()[0].strip().replace("·","")
#strip()去换行,空格

提取点赞数

#提取不到值
praise_num = response.xpath("//span[@class='vote-post-up']")
#引出contains函数并向下取一层h10标签,输出数组第一个值
praise_num = response.xpath("//span[contains(@class,'vote-post-up')]/h10/text()").extract()[0]

提取正文内容

#获取属性为entry的标签内容
content = response.xpath("//div[@class='entry']").extract()[0]

最新文章

  1. 2016 - 1 - 23 json转模型 常用的第三方框架
  2. ural1238. Folding(记忆化)
  3. git如何clone所有的远程分支
  4. 为通过ClickOnce部署的应用程序进行数字签名
  5. python 打印三级菜单
  6. java工作流引擎证照库类型的流程设计 实现方案与演示案例
  7. bzoj 4244 括号序列dp
  8. 启动期间的内存管理之引导分配器bootmem--Linux内存管理(十)
  9. python转义符
  10. netcore 下加密遇到的问题
  11. 1-tomcat简介
  12. Ubuntu下redis允许外部链接
  13. layui使用记录
  14. SpringBoot日记——MQ消息队列整合(二)
  15. 树莓派中GPIO针角定义图
  16. [转载]VS2010怎样打开VS2013或者VS2015建立的工程
  17. 计算1到N中各个数字出现的次数 --数位DP
  18. linux系统的磁盘挂载
  19. MFC显示GIF动画图片
  20. Java Ioc详解和实现

热门文章

  1. GBK,UTF-8,和ISO8859-1之间的编码与解码
  2. Ocelot
  3. vc6.0 Buile菜单下 Profile的作用
  4. drf 三级菜单后台序列化以及数据库的设计
  5. [ActionSprit 3.0] FMS服务器带宽检测
  6. nginx负载均衡监测节点状态
  7. jxl获取excel中的合并的单元格(主要是方法介绍)
  8. 对django的理解
  9. esp_err_t esp_event_loop_init(system_event_cb_t cb, void *ctx);
  10. rm: cannot remove `xxx’: Operation not permitted问题的处理方案