from lxml import etree
html="""
<div>
<ul>
<li>1</li>
<li title="text1">2</li>
<li>1</li>
<li title="text2">2</li>
<li>1</li>
<li title="text3">2</li>
<li>1</li>
<li title="text3 text4">2</li>
</ul>
</div>
"""
html=etree.HTML(html)
html1=html.xpath('//li[text()=2]')#获取值为2的html节点
# print(html1)
html2=html.xpath('//li[text()=2]')[-2]#获取倒数第二个值为2的html节点
# print(html2)
html3=html.xpath('//li[text()=2]/@title')#遍历值为2的html节点的title属性
# print(html3)#打印出一个列表
for i in html3:
print(i) #重点:针对多个属性,怎么取包含其中的一个值
html4=html.xpath('//li[contains(@title, "text4")]')#找出title属性包含text3的html节点
# print(html4)
html5=html.xpath('//li[1]')#找到第一个li
# print(html5)
html6=html.xpath('//li[last()]')#找到最后一个li
# print(html6)
html7=html.xpath('//li[last()-1]')#找到倒数第二个li
# print(html7)
html8=html.xpath('/html/body/div/ul/li[@title="text3"]/text()')#绝对路径找li的属性title="text2"的文本
# print(html8) # 如果在提取某个页面的某个标签的xpath路径的话,可以如下图:
# //*[@id="kw"]
# 解释:使用相对路径查找所有的标签,属性id等于kw的标签。

最新文章

  1. SortedDictionary
  2. 《DSP using MATLAB》示例Example4.8
  3. [前端]npm安装慢,换用淘宝的镜像
  4. C++ Primer Plus第6版18个重点笔记
  5. StringUtils cannot be resolved
  6. Rhel6-heartbeat+lvs配置文档
  7. Ajax请求ashx 返回 json 格式数据常见问题
  8. BZOJ 1029 建筑抢修
  9. eclipse中格式化代码快捷键Ctrl+Shift+F失效的解决办法
  10. 集成支付宝SDK遇到的坑
  11. HDU 5046 Airport(DLX反复覆盖)
  12. generate parentheses(生成括号)
  13. 分布式事务之如何基于RocketMQ的事务消息特性实现分布式系统的最终一致性?
  14. NumPy 学习笔记(一)
  15. spring 源码导入eclipse(sts)
  16. 【洛谷p1164】小A点菜
  17. TF-IDF算法-golang实现
  18. google test框架与eclipse插件
  19. API权限控制与安全管理
  20. mongoDB系列之(三):mongoDB 分片

热门文章

  1. JobTracker作业调度分析
  2. Image Filter
  3. 假设web应用的文档根目录为MyApp,那么可以从哪里找到database.jar文件。
  4. 请谈谈对SOA的认识。
  5. 【vijos】1286 座位安排(状压dp)
  6. c#上传大文件方法
  7. node.js中的事件循环机制
  8. 龙灵:特邀国内第一讲师“玄魂” 在线培训黑客神器Kali Linux
  9. Windows 10 上安装 3D Studio Max 2016 报错的解决办法
  10. memcache的内存管理机制