0. xpath 语法

  • 找到所有 <img src=....> 图像的链接:

    xpath = './/img/@src'
    img_urls = html.xpath(xpath)
    • @修饰节点的属性;

1. lxml

from lxml import etree
  • etree 下的 HTML 对象,其构造函数接受 requests.request 的返回值对象:

    url = ...
    user_agent = ...
    headers = {'User-Agent' : user_agent}
    req = requests.request(url=url, headers=headers) html = etree.HTML(req.text)

2. 方法

xpath定位中starts-with、contains和text()的用法

  • starts-with

    • //input[starts-with(@name, ‘name1’)]:查找name属性中开始位置包含’name1’关键字的 input 元素
  • contains
    • //input[contains(@name,’na’)] 查找name属性中包含na关键字的input元素
  • text()
    • 百度搜索
    • xpath写法为 //a[text()=’百度搜索’] ,//a[contains(text(),”百度搜索”)]

最新文章

  1. Windows Store App Image开发示例
  2. sublime text 2 ubuntu安装及插件管理
  3. 一起写一个Android图片加载框架
  4. vitamio 缓冲一部分时,loading还没消失,直接点击播放,loading未能消失
  5. 由tomcat启动想到的
  6. [转] doxygen使用总结
  7. 数据库连接未关闭,conn与rs未关闭
  8. Tsinghua dsa mooc pa1
  9. Azure Powershell使用已有特殊化非托管磁盘创建ARM虚拟机
  10. 洛谷 P1101 单词方阵
  11. Android导出数据库文件
  12. UltraISO制作Ubuntu14.04 64bit到U盘文件载入不完整
  13. CSS 快速学习
  14. SpringMVC处理请求
  15. 潭州课堂25班:Ph201805201 WEB 之 页面编写 第四课 登录注册 (课堂笔记)
  16. bzoj1458: 士兵占领 网络流
  17. 最大流(EK)
  18. RabbitMQ消息可靠性分析
  19. Android——点击对话框上按钮不关闭对话框
  20. Flume+Morphlines实现数据的实时ETL

热门文章

  1. 在ListView的GroupItem头中显示每列的Summary
  2. 在mac上独立安装PHP环境
  3. python函数式编程-------python2.7教程学习【廖雪峰版】(五)
  4. Configure the modules to be find by modprobe
  5. Zookeeper数据与存储
  6. Eclipse 中svn的合并与同步
  7. VS2015 C#6.0 中的那些新特性(转自http://www.cnblogs.com/henryzhu/p/new-feature-in-csharp-6.html)
  8. vMware存储:SAN配置基础
  9. SQL性能优化常用语句(摘录网上)
  10. 微信小程序高度设置为100%