爬虫3:html页面+webdriver模块+demo
2024-08-30 01:20:21
保密性好的网站,不能使用request请求页面信息,这样可以使用webdriver模块先开启一个浏览器,然后爬去信息,甚至还可以click等操作对页面操作,再爬取。
demo 一般流程:
1)包含selenium 模块
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
2)设置采用火狐浏览器(chrome也可以)
driver = webdriver.Firefox()
3)get方式打开(为了保密,url省略)
driver.get("http://www.---------------")
4)css方式筛选
elements = driver.find_elements_by_css_selector("span.c9.ng-binding")
5)由于webdriver模块的筛选功能不是很好用,这里推荐转成html形式,然后使用beautifulsoap筛选
html = driver.page_source
6)BeautifulSoup筛选信息-find_all 和 css 选择器方式更好用
from bs4 import BeautifulSoup
import re soup = BeautifulSoup(html)
# soup.find_all('div',text=re.compile(u"信息"))[]
for i in soup.select('a[href*="human"]'):
print i
最新文章
- Android开发——搭建最新版本的Android开发环境
- 线程的Abort方法有感
- Unix时间戳与C# DateTime时间类型互换
- Effective Java 51 Beware the performance of string concatenation
- Java判断文件编码格式
- 动画--过渡属性 transition-property
- C# string格式的日期时间字符串转为DateTime类型
- 第一节:Maven 下载,安装和配置
- js 获取时间对象代码
- 关于智能指针auto_ptr
- mysql超时机制
- ANNOTATION 注解
- RN picker使用
- sqlite3 插入数据的时候,返回SQLITE_CONSTRAINT
- vim配置之目录结构
- 【OCP 12c】最新CUUG OCP-071考试题库(62题)
- 用Vue的父子组件通信实现todolist的功能
- 用VIM查看编辑二进制文件
- Stack vs Heap
- vsftpd 虚拟用户配置