1. 什么是lxml

lxml是干什么的?简单的说来,lxml是帮助我们解析HTML、XML文件,快速定位,搜索、获取特定内容的Python库。我们知道,对于纯文本的HTML文件的查找可以使用正则表达式BeautifulSoup等完成。lxml也是对网页内容解析的一个库。

那么为什么要用lxml呢?据听说他比较快。我没有用来做过大项目,对解析速度理解不是很深刻。我用lxml只是因为它似乎比BeautifulSoup好用。

2. 初次使用

  1. 安装
sudo pip3 install lxml
  1. 初次使用
# 导入lxml
from lxml import etree # html字符串
html_str = """
<html>
<head>
<title>demo</title>
</head>
<body>
<p>1111111</p>
</body>
</html>
""" # 利用html_str创建一个节点树对象
html = etree.HTML(html_str)
type(html) # 输出结果为:lxml.etree._Element
  1. 首次解析HTML

不用理会下面代码中出现的新的方法和各种解析的技巧。先看一下lxml如何快速方便的解析html.

# 我们现在要获得上面的html文件中的p标签的内容
p_str = html.xpath('//body/p/text()') # 返回结果为一个列表:['1111111']

上面的例子,给出一个lxml如何解析HTML文件的实例。后文中众多的知识点,只不过是讲解更多的xpath解析方法技巧。

3. xpath

我们一直再讲lxml,这里突然出现xpath是干什么的?lxml的主要功能是解析HTML,他是利用什么语法来解析HTML的呢?就是利用xpath,因此,我们需要了解如何使用xpath。

xpath将html文档看做一个有众多的节点按照特定级别组织的节点树,对于其中内容的解析,又三种主要的措施:

  1. 标签定位
  2. 序列定位
  3. 轴定位

很抱歉,我们又引入了新的概念。但现在我们解释这些概念是不明智的,还是先看一下如何使用。

3.2 标签定位

为了说明xpath各种定位语法,我们下面利用如下的HTML来完成讲解。

from lxml import etree

html_str = """
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<meta name="viewport" content="width=device-width, initial-scale=1.0">
<meta http-equiv="X-UA-Compatible" content="ie=edge">
<title>The Document's story</title>
</head>
<body>
<div class="table1">
<ul class="one" id="id1">
<tr>tr1</tr>
<tr>tr2</tr>
<tr>tr3</tr>
<tr>tr4</tr>
</ul>
<ol class="two" id="id2">
<td>td1</td>
<td>td2</td>
<td>td3</td>
<td>td4</td>
</ol>
</div>
<div class="table2">
<a href="www.table2_1.com"><span>table2_span</span></a>
<a href="www.table2_2.com">
<p><h2>TABLE2</h2></p>
</a>
<a href="www.table2_3.com" id="id3">
<ul class="table_one" id="id4">
<tr>tr1_a</tr>
<tr>tr2_a</tr>
<tr>tr3_a</tr>
<tr>tr4_a</tr>
</ul>
</a>
</div>
</body>
</html>
""" html = etree.HTML(html_str)
html.xpath('//*') # 请将'//*'替换成下面表中实例列的表达式以观察各表达式的含义和作用。

先给出一张表。下表中给出了标签定位的表达式和对其作用的描述。下表中,实例列中的表达式的全部表达如下:如第一行中的命令为'//div',则全部的表达式为html.xpath('//div') 。注意,这里的html是一个lxml.etree._Element对象。(我们用HTML表示HTML文件或者其对应的字符串。)

表达式 描述 实例 解释
nodename 选取此节点的所有子节点 '//div' 找到html树中的所有div标签
/ 从根节点选取 '/head/title' 从根节点找到head->title
// 选取任意位置的某个节点 '//' html中所有p标签
. 选取当前节点 '.' 返回当前节点对象
.. 选取当前节点的父节点 '/html/head/..' 返回head的父节点html
@ 选取属性 '//div[@class="one"]' 返回具有属性class,并且class的值为"one"的节点
* 通配符 '//div/*' 返回所有满足条件的节点
| 一次选择多个路径 '/html/head | //div' 返回head节点或者div节点
@* 选取所有属性 '//div[@*]' 返回所有具有属性的div对象

3.3 序列定位

通过上面的学习,我们知道html.xpath()返回的是一个包含节点树对象的列表,对于列表中的元素,我们可以按照列表的索引进行查找,但是,如果想在xpath里面进行选择,就需要使用序列定位。

下面的代码承接上文。在给出一张表。

谓语 描述 实例 解释
[1] 第一个元素 '//div[1]' 返回第一个div对象
[last()] 最后一个元素 '//div[last()]' 返回最后一个div对象
[last()-1] 倒数第二个元素 '//div/ul[1]/tr[last()-1]' 返回所有div对象中第一个ul对象下面的倒数第二个tr对象
[position()❤️] 最前面的两个元素 '//tr[position()❤️]' 返回前两个tr对象
[@lang] 所有拥有属性lang的元素 '//div[@class]' 返回具有calss属性的div
[@lang='en'] 所有lang='en'的元素 '//div[@class="en"]' 返回class属性值为en的div对象

3.4 轴定位

同上。

轴名称 描述 实例 解释
child 当前节点的所有子元素 '//div[1]/child:

最新文章

  1. 在Swift中实现单例方法
  2. 用Curl测试POST
  3. questasim仿真控制——breakpoint断点
  4. php中的mysql 和 mysqli 区别
  5. Git 常用命令整理
  6. Linux - Yum的常用方法总结
  7. oracle 10g 学习之数据进行增删改查、数据库事务、约束(8)
  8. 游戏引擎/GUI的设计与实现-主题
  9. c 深度剖析 3
  10. WordPress使用SQLite全新安装
  11. Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建
  12. bzoj2064
  13. [git] git 的基础功能
  14. SQL Server 查看正在运行的事务信息的 2 种方法。
  15. 每天一个linux命令(29)--Linux chmod命令
  16. JavaScript控制输入框只能输入非负正整数
  17. Java并发——线程池原理
  18. POJ1251 Jungle Roads【最小生成树】
  19. NULL - AUTO_INCREMENT
  20. html5-文件的基本格式

热门文章

  1. 基于SpringCloud的微服务架构实战案例项目,以一个简单的购物流程为示例
  2. markdown的博客
  3. 搭建Spring Initializr服务器
  4. C语言字符型数据的ASCII码值为何是负数?
  5. HTML连载23-属性选择器(上)
  6. TLS示例开发-golang版本
  7. Linux下安装docker与kubernetes(k8s)
  8. SpringBoot Jpa入门案例
  9. linux svn 中文 https://my.oschina.net/VASKS/blog/659236
  10. UVA297 四分树 Quadtrees 题解