16.Python使用lxml爬虫
2024-08-31 05:31:45
1.lxml是解析库,使用时需要导入该包,直接在命令行输入:pip3 install lxml,基本上会报错。正确应该去对应的网址:https://pypi.org/project/lxml/#files,直接下载对应的lxml
(根据python版本自己去选择,笔者是python3.6,故下载:lxml-4.2.4-cp36-cp36m-win32.whl,切换到下载的whl目录,在该目录下执行:
pip3 install lxml-4.2.4-cp36-cp36m-win32.whl)
2.代码如下所示:
import requests
from lxml import etree url = 'https://www.mafengwo.cn/gonglve/ziyouxing/2033.html' response = requests.get(url) #返回一个response对象
page = response.text html = etree.HTML(page) #返回一个Element对象,将字符串解析为HTML文档
content = html.xpath('//h2') for i in content:
print(i.text)
3.代码解释:
A:定义好url的路径,使用url获取到response对象 如:url = ''
B:需要将reponse对象转化为字符串格式,page = response.text
C:使用解析库将字符串转为为HTML文档,根据自己想要获取的内容去定义xpath路径
最新文章
- 二十五、JDK1.5新特性---枚举
- Could not find a getter for orderItems in class
- 初识 Asp.Net内置对象之Response对象
- Spring AOP (上)
- bzoj1061: [Noi2008]志愿者招募
- Swift # 项目框架
- kali客户端攻击
- Factoextra R Package: Easy Multivariate Data Analyses and Elegant Visualization
- 入门干货之Electron的.NET实现-Electron.NET
- Mongodb中 Documents文档说明
- JAVA取数两个数组交集,考虑重复和不重复元素
- [HEOI/TJOI2016]序列
- 7、TypeScript数据类型
- jquery判断对象是否存在
- Java08-java语法基础(七)构造方法
- iOS 中架构模式的浅显理解
- 分享六个基于Bootstrap的实用开发教程和模板演示
- C# 各版本的新特性
- [Elasticsearch] 多字段搜索 (一) - 多个及单个查询字符串
- 记一次成功部署kolla-ansible ocata版本过程
热门文章
- pyhon SyntaxError: Non-ASCII character '\xe8' in file xxx on line xx, but no encoding
- netcat 安装 及netcat 命名介绍
- yii2 联系我们发送邮件报错
- 【LeetCode 28_字符串_匹配】Implement strStr()
- 慕课网-Linux达人养成计划学习笔记
- (转)MapReduce Design Patterns(chapter 2 (part 2))(三)
- learn go memoization
- css工具类封装
- centos7 安装php 5.x.x 报错
- TreeSet中自定义Comparator实现降序