学习requests_html
2024-10-18 22:34:30
一、获取页面上的所有链接。
from requests_html import HTMLSession session=HTMLSession()
r=session.get('https://news.baidu.com/')
#获取页面上的所有链接
all_links=r.html.links
print(all_links)
#获取页面上的所有链接,以绝对路径的方式
all_absolute_links=r.html.absolute_links
print(all_absolute_links)
二、获取页面上的所有标题及其链接
from requests_html import HTMLSession session=HTMLSession() r=session.get('https://www.cnblogs.com/') news=r.html.find('#post_list > div:nth-child(n) > div.post_item_body > h3 > a') for new in news:
print(new.text)
print(new.absolute_links)
三、通过css选择器选取一个Element对象
>>> about = r.html.find('#about', first=True)
四、获取一个Element对象内的文本内容
>>> print(about.text)
五、获取一个Element对象的所有属性attributes
>>> about.attrs
{'id': 'about', 'class': ('tier-1', 'element-1'), 'aria-haspopup': 'true'}
六、渲染出一个Element对象的HTML内容
>>> about.html
最新文章
- 2. Struts2 基础
- Linux selinux iptables
- UITableViewCell的highlighted 和selected 属性1
- .net 调用php webservice报错404状态解决方法
- Java 抽象类与oop三大特征
- Swift3.0语言教程查找字符集和子字符串
- ios学习总结(1) -- 创建第一个ios项目
- c++编写webui内核 .
- JDK1.5中LOCK,Condition的使用
- ajax.request函数使用详解
- 17_8_9 Spring 注入
- python_日历
- php使用protobuf3
- nginx 代理 https 后,应用变成 http
- word常用功能
- SVN服务器搭建实录
- Python 全栈开发一 python初识
- Linux下修改tomcat内存
- 洛谷P2657 windy数 [SCOI2009] 数位dp
- postman get和post结合