@

使用XPath解析库

1.简介

  XPath(全称XML Path Languang),即XML路径语言,是一种在XML文档中查找信息的语言。适用于XML和HTML文档的搜索。

  优点:提供了非常简洁明了的路径选择表达式。还提供了超过100个内建函数,可以匹配大部分的节点。

  官网:https://www.w3.org/TR/xpath/

  准备工作:需要安装lxml库。

2.常用规则

表达式 功能
nodename 选取此节点的所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取直接子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

3.etree模块解析网页简介

  etree是lxml库中的函数,可以自动修正HTML文本。下面是两种导入方法:

  直接读取网页代码进行解析:

from lxml import etree
text = '''
HTML文本
'''
# 将HTML文本转化为可以用etree解析的对象,
html = etree.HTML(text) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

  读取文本文件进行解析(这里既会自动修正文件,又会补充DOCTYPE声明):

from lxml import etree
html = etree.parse('文本文件路径/文本文件名字.html',etree.HTMLParse()) # 结果是bytes类型,如果需要文本输出,则需要用decode()转码为Unicode编码

  用tostring()方法即可输出修正后的HTML代码。

4.选取所有节点,子节点和父节点

(1)选取所有节点

  一般用//开头的XPath规则,就会选择从当前节点开始的所有子孙节点,也就是所有节点。所以要匹配所有的节点代码如下:

a = html.xpath('//*')	# 选取所有的节点
b = html.xpath('//a') # 选取所有的a节点,是一个例子

  这里的a和b,也就是xpath方法的返回值是一个列表,每个元素是Element类型,后面跟着节点的名称,是一个可迭代对象。要取出某一个对象,就需要用处理列表的方法进行。

(2)选取子节点

  选取子节点只需要在后面加上/节点名称(选择直接子节点,也就是与其相邻的第一个子节点),如果直接子节点没有就会报错,或者//节点名称(选择所有子孙节点),例子如下:

c = html.xpath('//li/a')	# 选取li节点的直接a子节点
d = html.xpath('//li//a') # 选取li节点的所有a子节点
(3)选取父节点

  获取某个节点的父节点有两个方法,一个是用..,另一个是用parent::。

同理,如果没有父节点,就会报错,例子如下:

e = html.xpath('//li/../a')	# 选取li节点的父节点下的a节点
f = html.xpath('//li/parent::/a') # 选取li节点的父节点下的直接a节点
g = html.xpath('//li/parent::*/a') # 选取li节点的父节点下的所有a节点

5.属性匹配,文本获取和属性多值匹配

(1)属性匹配

  在选取节点的时候,可以用@符号进行属性过滤,用[@属性名="属性值"]进行实现,例子如下:

s = html.xpath('//li[@class="ming"]')	# 选取属性值class="ming"的所有li节点

  要注意的是里面的括号和外面的括号尽量一个用双引号,一个用单引号。

(2)文本获取

  我们用Xpath中的text()方法即可获取节点中的文本。要注意的是获取到的数据可能包括换行符'\n'。

(3)属性多值匹配

  要是属性有多个值的话,用上面的方法就无法匹配了。需要用到contains()函数,包含两个参数,即@属性名和属性值,例子如下:

# 源代码中为<li class="ming1 ming2">
s1 = html.xpath('//li[contains(@class,"ming1")]') # 选取属性值class="ming1"的所有li节点
s2 = html.xpath('//li[contains(@class,"ming2")]') # 选取属性值class="ming2"的所有li节点

6.属性获取和多属性匹配

(1)属性获取

  属性获取直接用@获取即可,例子如下:

s = html.xpath('//li/a/@href]')	# 获取所有li节点下的直接a子节点的href属性
(2)多属性匹配

  有时候需要根据多个属性值确定一个节点,就需要同时匹配多个属性。要用and进行连接,可以把contains(@属性名,"属性名")和@属性名="属性值"混合使用,例子如下:

# 选取所有属性值class="a"和_target="ming"的li节点下的所有a节点的href属性
two_s = html.xpath('//li[contains(@class,"a") and @_target="ming"]//a/@href')

7.按次序选择

  有时候选择到的某些属性可能同时匹配了多个节点,但是要想得到其中的某一个节点,该如何获取呢?可以用中括号传入索引的方法获取特定次序的节点。下面是一些常用方法的总结:

方法 功能
[n] 选取第n个节点,序号是以1开头的
[last()] 选取最后一个节点
[position() < n] 选取位置小于n的节点,这里可以用算术运算符进行选择
[last() - n] 选取倒数第n+1个节点,由于last()是倒数第一个,则last() - n就是倒数第n+1个

8.节点轴选择

  由于网页代码是一个DOM树,因此可以用相对的位置进行选择节点的子节点,兄弟节点,父节点或者祖先节点等。python的节点轴选择常用的如下:

节点轴 选择节点
ancestor:: * 获取所有祖先节点
ancestor::条件 获取指定条件的祖先节点
attribute:: * 获取节点的所有属性
attribute::属性名 获取节点的指定属性
child:: * 获取所有子节点
child::条件 获取指定条件的子节点
descendent:: * 获取所有的子孙节点
descendent::条件 获取指定条件的子孙节点
following:: * 获取当前节点之后的所有节点
following:: *[n] 获取当前节点之后的第n个节点
following-sibing:: * 获取当前节点之后的所有同级节点
following-sibing::条件 获取当前节点之后指定条件的所有同级节点

9.开发者工具查看xpath选择器路径

  用F12打开开发者工具,按才Copy->Copy Xpath就可以把该段代码的XPath路径代码复制下来,很方便。

最新文章

  1. 【原】Python 用例:打印一个 Header Box
  2. Linux环境下Oracle数据库启动停止命令
  3. asp.net mvc 数据查询赋值到文本框中
  4. C++ 基本知識回顧
  5. 错误是无法将“XXX”转换为“System.CompenentModel.Design.Serialization.InstanceDescrip”问题的解决办法
  6. Ubuntu Install Chrome Brwoser
  7. Hadoop系统架构
  8. 读取excel文件内容代码
  9. Hook入门
  10. ELF学习--重定位文件
  11. android新建项目时 出现appcompat_v7工程错误和红色感叹号
  12. Springmvc加载静态文件和开启EL表达式的支持
  13. codechef Little Elephant and Permutations题解
  14. redis使用Lua脚本
  15. KMP - LeetCode #459 Repeated Substring Pattern
  16. 海外ubuntu,lamp,ftp,phpmyadmin配置
  17. LeetCode - 307. Range Sum Query - Mutable
  18. 用java开发图形界面项目,如何实现从本地选择图片文件并以二进制流的形式保存到MySQL数据库,并重新现实到面板
  19. js检测字符串的字节数
  20. Docker常用命令&lt;转&gt;

热门文章

  1. kubernetes部署高可用redis
  2. rpm软件包安装与管理
  3. 【CF908D】New Year and Arbitrary Arrangement
  4. IO多路复用?我所理解的IO模式
  5. python 使用tesseract进行图片识别
  6. Html5 Canvas动画基础碰撞检测的实现
  7. ERROR: Could not install packages due to an EnvironmentError: [Errno 13] Permission denied: &#39;/Library/Python/2.7/site-packages/itsdangerous&#39; Consider using the `--user` option or check the permissions
  8. postman---postman提示 Could not get any response
  9. 阿里云 centos7安装docker出行的问题;
  10. acwing 652. 切蛋糕