xpath用发
2024-09-02 02:43:23
xpath的更多语法: https://docs.microsoft.com/zh-cn/previous-versions/dotnet/netframework-2.0/ms256039(v=vs.80)?redirectedfrom=MSDN
注意: 使用xpath helper或者chrome中的copy xpath都是从element中提取数据的,但是爬虫获取的是url对应的响应,往往和elements不一样
1.获取文本
html/head/title/text() # 获取html下head下title的文本 获取title下的文本 文本里不包含下一级
html/head/title//text() # 获取title下所有的文本 包含下一级的文本
2.获取属性
head/link/@href # 获取head下的link的href属性
3.定位
//标签名[@属性名="属性值"]
//section[@id="list"]/section//div[@class="_20vb2"]/p/text()
4.本节点"."和上一节点".."
html/head/./../body
5.根据文本内容获取标签
//a[text()="下一页"]/@href # 根据下一页文本获取a标签链接地址
6.包含
html.xpath("//li[contains(@class,'item-1')]/a/@href") # class要用小括号包住
7.节点选择语法
查找某个特定的节点或者包含某个指定的值的节点
选择未知节点
选取若干路径
最新文章
- bash的管道符与重定向
- StartUML的基础的使用,用例图,序列图
- 湖人VS爵士!!科比4月14日最后一战,本赛季最高得分!狂得60分!!完美大逆转!!!
- 博客代码:iframe—网页中嵌入其他网页
- Windows下nginx+php配置
- JavaScript使用DeviceOne开发实战(一) 配置和起步
- 二十六、【开源框架】EFW框架Winform前端开发之Grid++Report报表、条形码、Excel导出、图表控件
- [Angularjs]angular ng-repeat与js特效加载先后导致的问题
- In Action(SPFA+01背包)
- Amazon Alexa 语音识别2 : 设置
- 给EasyUI的DateBox控件添加清除button
- xml的xPath解析规则
- html详解(二)
- python之多继承与__mro__的使用
- 20165223 《信息安全系统设计基础》 实现mypwd
- python爬虫初级--获取指定页面上的菜单名称以及链接,然后导出
- 给自己的程序添加BugReport
- 使用Tesseract-OCR 进行文字识别
- 【angular5项目积累总结】结合adal4实现http拦截器(token)
- 20155220 2016-2017-2 《Java程序设计》第六周学习总结