想看小说《鬼吹灯之精绝古城》,可是网页版的好多广告,还要一页一页的翻,还无法复制,于是写了个小爬虫,保存到word里慢慢看。

代码如下:

"""
爬取《鬼吹灯之精绝古城》小说
"""
from selenium import webdriver
import os
from docx import Document class DownloadFiles(): def __init__(self):
self.baseUrl = 'http://www.luoxia.com/guichui/'
self.basePath = os.path.dirname(__file__) def makedir(self, name):
path = os.path.join(self.basePath, name)
isExist = os.path.exists(path)
if not isExist:
os.makedirs(path)
print('File has been created.')
else:
print('The file is existed.')
# 切换到该目录下
os.chdir(path) def connect(self, url):
try:
driver = webdriver.PhantomJS()
driver.get(url)
print(url)
except:
"This page is not existed."
return driver def getContent(self):
doc = Document()
self.makedir('storyFiles')
for page in range(27426, 27461):
print('The page number is : ' + str(page))
url = self.baseUrl + str(page) + '.htm'
driver = self.connect(url)
rList = driver.find_elements_by_xpath('//article/p')
for r in rList:
print(r.text)
doc.add_paragraph(r.text) doc.save('guichuideng.doc') if __name__ == '__main__':
obj = DownloadFiles()
obj.getContent()

最新文章

  1. 深入理解javascript描述元素内容的5个属性
  2. [Django]下拉表单与模型查询
  3. Linux 常用操作命令
  4. Global文件编译发布,代码不执行的问题与解决
  5. [转]怎么在MVC中使用自定义Membership
  6. CentOS7挂载分区教程
  7. 刷了OpenWrt Attitude Adjustment 12.09,很满意
  8. Linux-lsof命令
  9. Java文件下载的几种方式
  10. 如何在Swift里用UnsafeMutablePointer
  11. ModelState用法
  12. dede 最近一天发布的文章标题前加hot
  13. ie6789和其他浏览器之间的鼠标左、中、右键的event.button不一致的办法
  14. js 中实现sleep函数
  15. sort排序错乱问题
  16. 【垃圾回收】Java内存回收实践经验 防止内存报警
  17. 缓存日志截取字段上传FTP
  18. HTTP 协议(一)之基本概念入门
  19. 一种快速部署开发用oracle的办法
  20. Docker学习笔记之编写 Docker Compose 项目

热门文章

  1. 6374. 【NOIP2019模拟2019.10.04】结界[生与死的境界]
  2. python操作pymysql
  3. Windows NtQueryInformationProcess()
  4. CSV (逗号分隔值文件格式)
  5. dom读写xml
  6. python re模块使用
  7. python 一些特殊用法和坑
  8. 网页压缩--gzip和deflate的区别
  9. 10、TestNG 的 FixTrue用法一
  10. 用js onselectstart事件鼠标禁止选中文字