学习自:

python3解析库lxml - Py.qi - 博客园

lxml官方文档

lxml官方文档——lxml中的类、方法使用,如果需要查看某些方法的具体用法,就到这个网页下

python爬虫系列--lxml(etree/parse/xpath)的使用

0、简介

lxml是Python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,且效率很高。

功能:

①解析HTML:使用etree.HTML(text)将字符串格式的html片段解析成html文档;

②读取xml文件

③etree和XPath的配合使用,提取元素节点

1、etree

0)方法

方法(均需加etree.前缀) 说明
HTML(html_text) 将字符串格式的文本转化为html文档格式
XML(xml_text) 将字符串格式的文本转化为xml文档格式
to_string() 以上两个方法转化后的文档格式并不能直接输出,该方法可以显示文档源码
parse()

应用语法解析器parser对对象进行解析;这里的对象可以是1)文件名/路径;2)文件对象;3)采用HTTP、FTP协议的URL;

返回一个ElementTree对象

   

1)etree.HTML(text)

作用:将字符串格式的文件转化为html文档

from lxml import etree
text = '''
<body>
<div>
<ul>
<li>01</li>
<li>02</li>
          ...
<li>06</li>
<li>07
</ul>
</div>
</body>
'''
html=etree.HTML(text) #将字符串格式的文件转化为html文档
print(html)
print('!!!!!!!!')
str=etree.tostring(html).decode()#tostring将html文档转化为二进制的字符串格式
                    #decode解码二进制,显示html源代码
print(str)

输出:

<Element html at 0x1a1ab4e4188> #直接输出html的结果
!!!!!!!!
<html><body>
<div>
<ul>
<li>01</li>
...
</ul>
</div>
</body>
</html>

代码解释:上文首先声明了一段HTML文本,调用HTML类进行初始化,这样就成功构造了一个XPath解析对象。这里需要注意的是,HTML文本最后一个li是没有闭合的,但是HTML方法可以自动修正为正确格式的HTML文本。

此时再调用tostring()方法就可以输出修正后的HTML代码,但是结果是bytes,需要利用decode()将之转换为string。

2)etree.parse

应用语法解析器对对象进行解析,常用于对html文件或HTTP URL,需指定解析器,返回一个XPath可解析对象

用法:

html=etree.parse('xxx.html',etree.HTMLParser())

3)xpath方法

用途:对以上两种方法提取到的解析对象进行XPath语法提取相关元素节点。

用法:

result=html.xpath('XPath路径表达式')

这里的XPath路径表达式的写法与之前所写完全相同,不再赘述。

提取结果为一个List,其中每一项都为从原始文本中提取到的要素项,访问时可以直接通过切片访问:

result[0]#第一个节点
.
.
.
result[-1]#最后一个节点

与Scrapy中的response.xpath方法相类比,可以认为这里的html.xpath就是response.xpath.extract的结果。

访问每一项时都是通过切片访问。

以上是使用lxml库进行XPath提取的一些基本知识点,由于很多内容已经在本博客XPath和Scrapy几节说过了,所以这里部分知识点知识简单说明。

使用lxml进行要素提取的一个基本流程总结:

from lxml import etree

#提取待解析对象
html=etree.HTML(str)#将某个str解析为HTML对象
html=etree.parse('xxx.html',etree.HTMLParser())#将某个html文件或者网页解析为HTML对象


#从HTML对象中进行XPath提取
result=html.xpath('xpath路径表达式')
print(result[n])#输出第n项提取项

#如果要输出解析对象
str=etree.tostring(html).decode()

如果需要从一个网页提取信息,则需要向网页发送请求,对请求结果中的Text部分进行以上操作:

headers={
'User-Agent':'...'
}
response=requests.get(url,headers=headers)#由此得到了一个html对象
#待解析对象就保存在了response.text中
r=response.text html=etree.HTML(r) ...#以下就和上一个代码接轨了

最新文章

  1. hdu 5269 trie树
  2. php session文件修改路径
  3. log4js
  4. 【POJ 3020】Antenna Placement(二分图匹配)
  5. 【转】Linux mount/unmount命令
  6. Sublime Text博客插件 --- iblog
  7. C语言文件操作函数
  8. 166. Fraction to Recurring Decimal
  9. 简述tcp协议对http性能的影响及优化
  10. IOS线程操作(3)
  11. 在Activity之间传递数据—获取Activity返回的数据
  12. C++基本内置类型
  13. CSS display和visibility的用法和区别
  14. div外观例子
  15. 码农、黑客和2B程序员之间的区别
  16. Xpath Helper的使用
  17. HBase单机和集群版部署
  18. Hystrix 学习使用
  19. 接口测试工具-Jmeter使用笔记(四:响应断言)
  20. 10、Android--技巧

热门文章

  1. 五种IO模型(Model)
  2. C++ 子函数参数传递过程
  3. SpringMVC主要组件
  4. Idea快捷键---根据自己使用情况持续更新
  5. Java使用DOM方式读写XML
  6. Lvs+Keepalived+MySQL Cluster架设高可用负载均衡Mysql集群
  7. Docker创建私有镜像仓库
  8. 关于Java多线程-interrupt()、interrupted()、isInterrupted()解释
  9. Linux专项之Apache
  10. 《PHP程序员面试笔试宝典》——什么是职场暗语?