一、获取页面上的所有链接。

from requests_html import HTMLSession

session=HTMLSession()
r=session.get('https://news.baidu.com/')
#获取页面上的所有链接
all_links=r.html.links
print(all_links)
#获取页面上的所有链接,以绝对路径的方式
all_absolute_links=r.html.absolute_links
print(all_absolute_links)

二、获取页面上的所有标题及其链接

from requests_html import HTMLSession

session=HTMLSession()

r=session.get('https://www.cnblogs.com/')

news=r.html.find('#post_list > div:nth-child(n) > div.post_item_body > h3 > a')

for new in news:
print(new.text)
print(new.absolute_links)

三、通过css选择器选取一个Element对象

>>> about = r.html.find('#about', first=True)

四、获取一个Element对象内的文本内容

>>> print(about.text)

五、获取一个Element对象的所有属性attributes

>>> about.attrs
{'id': 'about', 'class': ('tier-1', 'element-1'), 'aria-haspopup': 'true'}

六、渲染出一个Element对象的HTML内容

>>> about.html

最新文章

  1. 2. Struts2 基础
  2. Linux selinux iptables
  3. UITableViewCell的highlighted 和selected 属性1
  4. .net 调用php webservice报错404状态解决方法
  5. Java 抽象类与oop三大特征
  6. Swift3.0语言教程查找字符集和子字符串
  7. ios学习总结(1) -- 创建第一个ios项目
  8. c++编写webui内核 .
  9. JDK1.5中LOCK,Condition的使用
  10. ajax.request函数使用详解
  11. 17_8_9 Spring 注入
  12. python_日历
  13. php使用protobuf3
  14. nginx 代理 https 后,应用变成 http
  15. word常用功能
  16. SVN服务器搭建实录
  17. Python 全栈开发一 python初识
  18. Linux下修改tomcat内存
  19. 洛谷P2657 windy数 [SCOI2009] 数位dp
  20. postman get和post结合

热门文章

  1. juqery 点击张三触发李四的方法 trigger(); 和 被选元素前插入指定的内容的方法 brfore();
  2. 如何在Ubuntu上安装腾讯QQ
  3. WebService,ESB笔记
  4. C++中的const成员函数(函数声明后加const,或称常量成员函数)用法详解
  5. mysql脚本手动修改成oracle脚本
  6. PTA 复数四则运算
  7. 谈谈那些年我们装B的并发编程
  8. Java第二次考试
  9. 用 MoveTowards实现多点移动
  10. count列表中字符出现的次数