爬虫(十一)—— XPath总结
2024-09-06 00:26:36
XPath总结
一、何为XPath
XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的
二、XPath语法
1、语法
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点 |
/ | 从根节点选取 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置 |
. | 选取当前节点 |
.. | 选取当前节点的父节点 |
@ | 选取属性 |
contains | 包含,模糊匹配 |
* | 选取所有节点 |
| | 与 |
2、实例
路径表达式 | 结果 |
---|---|
//book/page | 选取根目录下所有book标签中的page标签 |
//book[@name='hong'] | 选取根目录下所有name属性是hong的book标签 |
//*[@name='key'] | 选取根目录下所有name属性是key的任意标签 |
//*[@name,'key_'] | 选取根目录下所有name属性包含key的任意标签 |
//*[@id="author"]/a[3] | 选取根目录下所有id属性是author的任意标签下子标签中的第3个a标签 |
//title[@*] | 选取所有带有属性的 title 元素 |
//title | //price | 选取文档中的所有 title 和 price 元素。 |
三、XPath轴
定义所选节点与当前节点之间的树关系
1、XPath轴语法
轴名称::节点测试[谓语]
轴名称 | 结果 |
---|---|
ancestor | 选取当前节点的所有先辈(父、祖父等) |
ancestor-or-self | 选取当前节点的所有先辈(父、祖父等)以及当前节点本身 |
attribute | 选取当前节点的所有属性 |
child | 选取当前节点的所有子元素 |
descendant | 选取当前节点的所有后代元素(子、孙等) |
descendant-or-self | 选取当前节点的所有后代元素(子、孙等)以及当前节点本身 |
following | 选取文档中当前节点的结束标签之后的所有节点 |
namespace | 选取当前节点的所有命名空间节点 |
parent | 选取当前节点的父节点 |
preceding | 选取文档中当前节点的开始标签之前的所有节点 |
preceding-sibling | 选取当前节点之前的所有同级节点 |
self | 选取当前节点 |