提取数据xpath,re,css
XPATH
(1)/ 逐层提取
(2)text() 提取标签下面的文本
(3)//标签名 提取所有的标签
(4)//标签名[num>=1] 提取相同标签名的兄弟节点。
<tr class="h">
<td class="l" width="374">职位名称</td>
<td class="">职位类别</td>
<td class="">人数</td>
<td class="">地点</td>
<td class="">发布时间</td>
</tr>
xpath('/tr[@class="h"]/td[1]/text()') #职位名称
xpath('/tr[@class="h"]/td[2]/text()') #职位类别
xpath('/tr[@class="h"]/td[3]/text()') #人数
xpath('/tr[@class="h"]/td[3]/text()') #地点
(5)//标签名[@属性='属性值'] 提取属性为...的标签
//a[@class='noactive']
//a[@class='noactive' and @id='next']
(6)@属性名 取某个属性
=============================================================
RE
re.compile(pattern, flags=0)
flags 标志位参数
re.I(re.IGNORECASE)
使匹配对大小写不敏感
re.L(re.LOCAL)
做本地化识别(locale-aware)匹配
re.M(re.MULTILINE)
多行匹配,影响 ^ 和 $
re.S(re.DOTALL)
使 . 匹配包括换行在内的所有字符
re.U(re.UNICODE)
根据Unicode字符集解析字符。这个标志影响 \w, \W, \b, \B.
re.X(re.VERBOSE)
该标志通过给予你更灵活的格式以便你将正则表达式写得更易于理解。
============================================================
最新文章
- 前端学PHP之PHP操作memcache
- Base64简介
- 自己实现简单Web服务器,支持GET POST请求
- 关于clientWidth scrollWidth offsetWidth的理解
- React Native 项目运行在 Web 浏览器上面
- MVC中 _ViewStart _Layout Index三个页面中的加载顺序
- 每天一个 Linux 命令(12):more命令
- Echarts data数据为空时,显示“-”
- SQL 教程学习进度备忘
- strlen和sizeof的差别
- web标准(复习)--8
- bnu 34982 Beautiful Garden(暴力)
- CHM文件无法打开或无法搜索
- Linux学习笔记之如何挂载数据盘
- 谷歌迂回入华:Waymo无人车抢先进驻上海!
- .NET中资源文件的使用
- Authorize的Forms认证
- Leetcode题库——47.全排列II
- Maven依赖传递、依赖传递排除、依赖冲突
- C++语言的学习环境
热门文章
- NMS(非极大值抑制算法)
- PE盘制作
- 创建的项目如果没有src/main/resources文件夹,如何解决?
- LoadRunner 技巧之 集合点设置
- Centos下使用subversion
- Python学习之==>;条件判断
- 使用vue做项目如何提高代码效率
- 【JAVA系列】Google爬虫如何抓取JavaScript的?
- Logistic回归基础篇之梯度上升算法
- 【神经网络与深度学习】caffe静态链接库“Unknown layer type: Convolution (known types: )”和“ 磁盘空间不足”问题的解决办法