保存网页内容到excel
from selenium import webdriver
from time import sleep
from selenium.common.exceptions import NoSuchElementException
from openpyxl import Workbook
driver = webdriver.Chrome()
driver.get("https://tieba.baidu.com/index.html")
#定位搜索框
driver.find_element_by_xpath('//input[@id="wd1"]').send_keys("孙茂书")
#定位搜索按钮
driver.find_element_by_xpath('//a[text()="全吧搜索"]').click()
sleep(3)
#打开excel表格
wb = Workbook()
ws = wb.active
ws.append(["标题", "内容"])
row = 2
row2 = 2
while True:
title_list = list()
try:
#定位标题
all_title = driver.find_elements_by_xpath('//span[@class="p_title"]')
all_content = driver.find_elements_by_xpath('//div[@class="p_content"]')
for title in all_title:
ws.cell(row, 1, title.text)
print("保存标题到excel表格中")
row = row + 1
for content in all_content:
ws.cell(row2, 2, content.text)
print("保存内容到excel表格中")
row2 = row2 + 1
wb.save("./data.xlsx")
# 定位下一页
driver.find_element_by_xpath('//a[@class="next"]').click()
sleep(3)
except NoSuchElementException as E:
break
最新文章
- Mysql 常用 SQL 语句集锦 转载(https://gold.xitu.io/post/584e7b298d6d81005456eb53)
- ubuntu的一些常用命令,测试版本:Ubuntu 12.04.5 LTS
- android窗口泄漏,isInEditMode解决可视化编辑器无法识别自定义控件的问题
- 未能加载文件或程序集“EntityFramework, Version=6.0.0.0, Culture=neutral, PublicKeyToken=b77a5c561934e089”
- PowerDesigner(三)-企业架构模型(转)
- bzoj1264
- RadioGroup单选按钮排版
- UVALive 2403 77377解题报告(深搜)
- 【HighCharts系列教程】一、认识Highcharts
- vb是如何连接数据库的
- JDBC连接数据库程序
- HighCharts之2D柱状图、折线图的组合多轴图
- 1.11 UML 类图(多看多用就熟悉了)(节选自:《大话设计模式》)
- iperf测试网络带宽
- ";___gxx_personality_v0";, referenced from:
- python 基础总计 2
- 学习前端页面css定位
- Spring源码解读Spring IOC原理
- .NET开源MSSQL、Redis监控产品Opserver之MSSQL配置
- HTML中IMG标签总结
热门文章
- 算法复杂度之 空间复杂度(Java)
- tomcat服务器基本操作:实现www.baidu.com访问tomcat中项目
- 9.python中sys.argv[]用法说明
- 洛谷P3292 [SCOI2016]幸运数字 线性基+倍增
- 【转】C#中protected用法详解
- KnockoutJs官网教程学习(一)
- 使用rabbitmq手动确认消息的,定时获取队列消息实现
- 如何设计一个优雅的RESTFUL的接口
- C#与JavaScript中URL编码解码问题(转)
- java项目Jenkins部署