Python 爬虫 —— 网页内容解析(lxml)
2024-10-20 18:51:23
0. xpath 语法
找到所有
<img src=....>
图像的链接:xpath = './/img/@src'
img_urls = html.xpath(xpath)- @修饰节点的属性;
1. lxml
from lxml import etree
etree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:
url = ...
user_agent = ...
headers = {'User-Agent' : user_agent}
req = requests.request(url=url, headers=headers) html = etree.HTML(req.text)
2. 方法
xpath定位中starts-with、contains和text()的用法
- starts-with
- //input[starts-with(@name, ‘name1’)]:查找name属性中开始位置包含’name1’关键字的 input 元素
- contains
- //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
- text()
- 百度搜索
- xpath写法为 //a[text()=’百度搜索’] ,//a[contains(text(),”百度搜索”)]
最新文章
- Windows Store App Image开发示例
- sublime text 2 ubuntu安装及插件管理
- 一起写一个Android图片加载框架
- vitamio 缓冲一部分时,loading还没消失,直接点击播放,loading未能消失
- 由tomcat启动想到的
- [转] doxygen使用总结
- 数据库连接未关闭,conn与rs未关闭
- Tsinghua dsa mooc pa1
- Azure Powershell使用已有特殊化非托管磁盘创建ARM虚拟机
- 洛谷 P1101 单词方阵
- Android导出数据库文件
- UltraISO制作Ubuntu14.04 64bit到U盘文件载入不完整
- CSS 快速学习
- SpringMVC处理请求
- 潭州课堂25班:Ph201805201 WEB 之 页面编写 第四课 登录注册 (课堂笔记)
- bzoj1458: 士兵占领 网络流
- 最大流(EK)
- RabbitMQ消息可靠性分析
- Android——点击对话框上按钮不关闭对话框
- Flume+Morphlines实现数据的实时ETL
热门文章
- 在ListView的GroupItem头中显示每列的Summary
- 在mac上独立安装PHP环境
- python函数式编程-------python2.7教程学习【廖雪峰版】(五)
- Configure the modules to be find by modprobe
- Zookeeper数据与存储
- Eclipse 中svn的合并与同步
- VS2015 C#6.0 中的那些新特性(转自http://www.cnblogs.com/henryzhu/p/new-feature-in-csharp-6.html)
- vMware存储:SAN配置基础
- SQL性能优化常用语句(摘录网上)
- 微信小程序高度设置为100%