xpath的更多语法: https://docs.microsoft.com/zh-cn/previous-versions/dotnet/netframework-2.0/ms256039(v=vs.80)?redirectedfrom=MSDN

注意: 使用xpath helper或者chrome中的copy xpath都是从element中提取数据的,但是爬虫获取的是url对应的响应,往往和elements不一样

1.获取文本

html/head/title/text()  #  获取html下head下title的文本  获取title下的文本 文本里不包含下一级
html/head/title//text() # 获取title下所有的文本 包含下一级的文本

2.获取属性

head/link/@href   # 获取head下的link的href属性

3.定位

//标签名[@属性名="属性值"]

//section[@id="list"]/section//div[@class="_20vb2"]/p/text()

4.本节点"."和上一节点".."

html/head/./../body

5.根据文本内容获取标签

//a[text()="下一页"]/@href   # 根据下一页文本获取a标签链接地址

6.包含

html.xpath("//li[contains(@class,'item-1')]/a/@href")  # class要用小括号包住

7.节点选择语法

查找某个特定的节点或者包含某个指定的值的节点

选择未知节点

选取若干路径

最新文章

  1. bash的管道符与重定向
  2. StartUML的基础的使用,用例图,序列图
  3. 湖人VS爵士!!科比4月14日最后一战,本赛季最高得分!狂得60分!!完美大逆转!!!
  4. 博客代码:iframe—网页中嵌入其他网页
  5. Windows下nginx+php配置
  6. JavaScript使用DeviceOne开发实战(一) 配置和起步
  7. 二十六、【开源框架】EFW框架Winform前端开发之Grid++Report报表、条形码、Excel导出、图表控件
  8. [Angularjs]angular ng-repeat与js特效加载先后导致的问题
  9. In Action(SPFA+01背包)
  10. Amazon Alexa 语音识别2 : 设置
  11. 给EasyUI的DateBox控件添加清除button
  12. xml的xPath解析规则
  13. html详解(二)
  14. python之多继承与__mro__的使用
  15. 20165223 《信息安全系统设计基础》 实现mypwd
  16. python爬虫初级--获取指定页面上的菜单名称以及链接,然后导出
  17. 给自己的程序添加BugReport
  18. 使用Tesseract-OCR 进行文字识别
  19. 【angular5项目积累总结】结合adal4实现http拦截器(token)
  20. 20155220 2016-2017-2 《Java程序设计》第六周学习总结

热门文章

  1. Spring通过注解获取所有被注解标注的Beans
  2. 谷歌浏览器扩展程序中安装vue-devtools插件
  3. 所谓的SaaS服务到底是什么?
  4. [CF254C]Anagram(2019-11-15考试)
  5. 【题解】Sonya and Matrix Beauty [Codeforces1080E]
  6. 『Tree nesting 树形状压dp 最小表示法』
  7. Java学习:数据库连接池技术
  8. 【vue】搭建vue环境以及要安装的所有东西
  9. Tomcat 中的 Session 和 Cookie
  10. 集成开发环境(IDE)