Python 爬虫-抓取小说《鬼吹灯之精绝古城》
2024-09-15 15:50:24
想看小说《鬼吹灯之精绝古城》,可是网页版的好多广告,还要一页一页的翻,还无法复制,于是写了个小爬虫,保存到word里慢慢看。
代码如下:
"""
爬取《鬼吹灯之精绝古城》小说
"""
from selenium import webdriver
import os
from docx import Document class DownloadFiles(): def __init__(self):
self.baseUrl = 'http://www.luoxia.com/guichui/'
self.basePath = os.path.dirname(__file__) def makedir(self, name):
path = os.path.join(self.basePath, name)
isExist = os.path.exists(path)
if not isExist:
os.makedirs(path)
print('File has been created.')
else:
print('The file is existed.')
# 切换到该目录下
os.chdir(path) def connect(self, url):
try:
driver = webdriver.PhantomJS()
driver.get(url)
print(url)
except:
"This page is not existed."
return driver def getContent(self):
doc = Document()
self.makedir('storyFiles')
for page in range(27426, 27461):
print('The page number is : ' + str(page))
url = self.baseUrl + str(page) + '.htm'
driver = self.connect(url)
rList = driver.find_elements_by_xpath('//article/p')
for r in rList:
print(r.text)
doc.add_paragraph(r.text) doc.save('guichuideng.doc') if __name__ == '__main__':
obj = DownloadFiles()
obj.getContent()
最新文章
- 深入理解javascript描述元素内容的5个属性
- [Django]下拉表单与模型查询
- Linux 常用操作命令
- Global文件编译发布,代码不执行的问题与解决
- [转]怎么在MVC中使用自定义Membership
- CentOS7挂载分区教程
- 刷了OpenWrt Attitude Adjustment 12.09,很满意
- Linux-lsof命令
- Java文件下载的几种方式
- 如何在Swift里用UnsafeMutablePointer
- ModelState用法
- dede 最近一天发布的文章标题前加hot
- ie6789和其他浏览器之间的鼠标左、中、右键的event.button不一致的办法
- js 中实现sleep函数
- sort排序错乱问题
- 【垃圾回收】Java内存回收实践经验 防止内存报警
- 缓存日志截取字段上传FTP
- HTTP 协议(一)之基本概念入门
- 一种快速部署开发用oracle的办法
- Docker学习笔记之编写 Docker Compose 项目