1. 什么是lxml

lxml是干什么的？简单的说来，lxml是帮助我们解析HTML、XML文件，快速定位，搜索、获取特定内容的Python库。我们知道，对于纯文本的HTML文件的查找可以使用正则表达式、BeautifulSoup等完成。lxml也是对网页内容解析的一个库。

那么为什么要用lxml呢？据听说他比较快。我没有用来做过大项目，对解析速度理解不是很深刻。我用lxml只是因为它似乎比BeautifulSoup好用。

2. 初次使用

安装

sudo pip3 install lxml

初次使用

# 导入lxml

from lxml import etree

# html字符串

html_str = """

<html>

<head>

<title>demo</title>

</head>

<body>

<p>1111111</p>

</body>

</html>

"""

# 利用html_str创建一个节点树对象

html = etree.HTML(html_str)

type(html) # 输出结果为：lxml.etree._Element

首次解析HTML

不用理会下面代码中出现的新的方法和各种解析的技巧。先看一下lxml如何快速方便的解析html.

# 我们现在要获得上面的html文件中的p标签的内容

p_str = html.xpath('//body/p/text()')  # 返回结果为一个列表：['1111111']

上面的例子，给出一个lxml如何解析HTML文件的实例。后文中众多的知识点，只不过是讲解更多的xpath解析方法技巧。

3. xpath

我们一直再讲lxml，这里突然出现xpath是干什么的？lxml的主要功能是解析HTML，他是利用什么语法来解析HTML的呢？就是利用xpath，因此，我们需要了解如何使用xpath。

xpath将html文档看做一个有众多的节点按照特定级别组织的节点树，对于其中内容的解析，又三种主要的措施：

标签定位
序列定位
轴定位

很抱歉，我们又引入了新的概念。但现在我们解释这些概念是不明智的，还是先看一下如何使用。

3.2 标签定位

为了说明xpath各种定位语法，我们下面利用如下的HTML来完成讲解。

from lxml import etree

html_str = """

<!DOCTYPE html>

<html lang="en">

<head>

    <meta charset="UTF-8">

    <meta name="viewport" content="width=device-width, initial-scale=1.0">

    <meta http-equiv="X-UA-Compatible" content="ie=edge">

    <title>The Document's story</title>

</head>

<body>

    <div class="table1">

        <ul class="one" id="id1">

            <tr>tr1</tr>

            <tr>tr2</tr>

            <tr>tr3</tr>

            <tr>tr4</tr>

        </ul>

        <ol class="two" id="id2">

            <td>td1</td>

            <td>td2</td>

            <td>td3</td>

            <td>td4</td>

        </ol>

    </div>

    <div class="table2">

        <a href="www.table2_1.com"><span>table2_span</span></a>

        <a href="www.table2_2.com">

            <p><h2>TABLE2</h2></p>

        </a>

        <a href="www.table2_3.com" id="id3">

                <ul class="table_one" id="id4">

                    <tr>tr1_a</tr>

                    <tr>tr2_a</tr>

                    <tr>tr3_a</tr>

                    <tr>tr4_a</tr>

                </ul>

        </a>

    </div>

</body>

</html>

"""

html = etree.HTML(html_str)

html.xpath('//*') # 请将'//*'替换成下面表中实例列的表达式以观察各表达式的含义和作用。

先给出一张表。下表中给出了标签定位的表达式和对其作用的描述。下表中，实例列中的表达式的全部表达如下：如第一行中的命令为'//div',则全部的表达式为html.xpath('//div') 。注意，这里的html是一个lxml.etree._Element对象。（我们用HTML表示HTML文件或者其对应的字符串。）

表达式	描述	实例	解释
nodename	选取此节点的所有子节点	'//div'	找到html树中的所有div标签
/	从根节点选取	'/head/title'	从根节点找到head->title
//	选取任意位置的某个节点	'//'	html中所有p标签
.	选取当前节点	'.'	返回当前节点对象
..	选取当前节点的父节点	'/html/head/..'	返回head的父节点html
@	选取属性	'//div[@class="one"]'	返回具有属性class，并且class的值为"one"的节点
*	通配符	'//div/*'	返回所有满足条件的节点
\|	一次选择多个路径	'/html/head \| //div'	返回head节点或者div节点
@*	选取所有属性	'//div[@*]'	返回所有具有属性的div对象

3.3 序列定位

通过上面的学习，我们知道html.xpath()返回的是一个包含节点树对象的列表，对于列表中的元素，我们可以按照列表的索引进行查找，但是，如果想在xpath里面进行选择，就需要使用序列定位。

下面的代码承接上文。在给出一张表。

谓语	描述	实例	解释
[1]	第一个元素	'//div[1]'	返回第一个div对象
[last()]	最后一个元素	'//div[last()]'	返回最后一个div对象
[last()-1]	倒数第二个元素	'//div/ul[1]/tr[last()-1]'	返回所有div对象中第一个ul对象下面的倒数第二个tr对象
[position()❤️]	最前面的两个元素	'//tr[position()❤️]'	返回前两个tr对象
[@lang]	所有拥有属性lang的元素	'//div[@class]'	返回具有calss属性的div
[@lang='en']	所有lang='en'的元素	'//div[@class="en"]'	返回class属性值为en的div对象

3.4 轴定位

同上。

轴名称	描述	实例	解释
child	当前节点的所有子元素	'//div[1]/child: 最新文章在Swift中实现单例方法用Curl测试POST questasim仿真控制——breakpoint断点 php中的mysql 和 mysqli 区别 Git 常用命令整理 Linux - Yum的常用方法总结 oracle 10g 学习之数据进行增删改查、数据库事务、约束（8）游戏引擎/GUI的设计与实现-主题 c 深度剖析 3 WordPress使用SQLite全新安装 Alluxio1.0.1最新版(Tachyon为其前身)介绍,+HDFS分布式环境搭建 bzoj2064 [git] git 的基础功能 SQL Server 查看正在运行的事务信息的 2 种方法。每天一个linux命令(29)--Linux chmod命令 JavaScript控制输入框只能输入非负正整数 Java并发——线程池原理 POJ1251 Jungle Roads【最小生成树】 NULL - AUTO_INCREMENT html5-文件的基本格式热门文章基于SpringCloud的微服务架构实战案例项目，以一个简单的购物流程为示例 markdown的博客搭建Spring Initializr服务器 C语言字符型数据的ASCII码值为何是负数？ HTML连载23-属性选择器（上） TLS示例开发-golang版本 Linux下安装docker与kubernetes（k8s） SpringBoot Jpa入门案例 linux svn 中文 https://my.oschina.net/VASKS/blog/659236 UVA297 四分树 Quadtrees 题解 Home Powered By WordPress

轴名称

描述

实例

解释

child

当前节点的所有子元素

'//div[1]/child:

巴特西

lxml解析网页