Python爬取有声小说


通过python爬取网站的资源,实现批量下载功能:

记录一次自己的学习经历,小白,非专业,难免有不足之处,望读者取其精华!

摘要

功能如下:

1.批量下载

2.批量命名

3.界面化显示

使用工具:

1.pycharm

2.网站为 https://www.qktsw.net/ (如有侵权请联系作者删除)

整体思路:

1.请求网站,根据返回的网站源码,查找包含资源链接的标签

2.请求资源链接,将资源保存的本地,并命名

3.分析包含资源的网页规律(url),循环爬取

4.设计界面,实现自动分析,方便操作

5.(可选项)打包成exe文件,提升移植性

1.获取下载链接

#获取下载链接的方法
def getinfo(url0):
#请求头
headers = {
"User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"
}
#请求网页数据
req = requests.get(url=url0, headers=headers)
req.encoding = 'gb2312'
html = req.text
# 通过正则查找下载链接
res = re.findall(r"http://(.*).m4a", html)
# 拼合链接
res = 'http://' + res[0]+'.m4a'
#print(res)
return res

2.分析规律,循环爬取

	#设置所要下载的起始终止集数
begin = int(begin0)
end = int(end0)
#全局变量 批量命名时的集数
global file_name_num
file_name_num = begin
#正则匹配包含资源链接页的规律 wangzhi为后期界面传过来的网址数据
wangzhi_1 = wangzhi
strinfo = re.compile('-(\d|\d\d|\d\d\d|\d\d\d\d).shtml')
wangzhi_2 = strinfo.sub('-{}.shtml', wangzhi_1)
#https://www.qktsw.net/ting-book-play-3483-1-2.shtml
#根据匹配规则实现循环访问页面 详情页
urls = [wangzhi_2.format(str(i)) for i in range(begin, end+1)]
#'https://www.qktsw.net/ting-book-play-3483-1-{}.shtml'
#https://www.qktsw.net/ print("############开始下载############")
for url in urls: #设置要保存到的路路径
folderpath = store_path
#通过函数返回下载链接
url_download = getinfo(url)
#开始下载
#调用保存文件函数,实现下载到本地
download_file(url_download, folderpath, file_name_num, file_name)
#休眠1秒 防止访问速度过快
time.sleep(1)
#全部下载完成后输出信息
print("############全部下载完成############")

3.保存到本地,批量命名

#下载文件的方法
def download_file(url,folderpath,num,file_name): #参数中 folderpath 为要保存的文件夹的路径 num 为文件编号
#文件夹不存在则创建文件夹
folder = os.path.exists(folderpath)
if not folder:
os.makedirs(folderpath)
#输出保存信息
print('---正在下载第' + str(num) + '集>>>>>', folderpath+'/'+file_name+'-'+str(num)+'.mp3')
#请求资源链接 读取远程MP3资源
res = requests.get(url)
res.raise_for_status() #设置保存的文件名
filename = os.path.basename(file_name+'-'+str(num)+'.mp3')
file_path = os.path.join(folderpath, filename)
#保存到本地
mp3_file = open(file_path, 'wb')
for chunk in res.iter_content(chunk_size=1000000):
mp3_file.write(chunk)
mp3_file.close()
#每集下载完成后 输出提示
print(' ***第'+str(num)+'集下载成功') #修改文件编号 加 1
global file_name_num
file_name_num+=1

4.界面设计

#!/usr/bin/python
# -*- coding: UTF-8 -*-
#界面库使用 tkinter
import tkinter
from tkinter import *
import next #==next文件为1-3中函数保存的位置 root = tkinter.Tk() # 创建窗口对象的背景色
root.title("听书爬虫程序")
root.geometry("450x350") L1 = Label(root, text="小说名字:(如:****)")
L1.pack( side = TOP)
E1 = Entry(root, bd =1, width='50')
E1.pack(side = TOP) L2 = Label(root, text="保存路径:(如:D:/****)")
L2.pack( side = TOP)
E2 = Entry(root, bd =1, width='50')
E2.insert(0, "D:/")
E2.pack(side = TOP) L3 = Label(root, text="小说网址:(如:https://www.qktsw.net/ting-book-play-5264-1-1.shtml)")
L3.pack( side = TOP)
E3 = Entry(root, bd =1, width='50')
E3.pack(side = TOP) L4 = Label(root, text="起始集数:(如:1)")
L4.pack( side = TOP)
E4 = Entry(root, bd =1, width='50')
E4.pack(side = TOP) L5 = Label(root, text="终止集数:(如:67)")
L5.pack( side = TOP)
E5 = Entry(root, bd =1, width='50')
E5.pack(side = TOP) L6 = Label(root,text="作者:***",fg="red")
L6.pack( side = BOTTOM)
#
E7 = Entry(root, bd =1, width='50')
E7.insert(0, 'https://www.qktsw.net/') #在文本框开始位置插入“内容一”
E7.pack(side = BOTTOM)
L7 = Label(root, text="网址备忘:(复制后用浏览器打开)")
L7.pack( side = BOTTOM)
#信息输入完成后 确认键调用的函数
def on():
#获取各个输入框的内用
name = E1.get()
path = E2.get()
wangzhi = E3.get()
begin = E4.get()
end = E5.get()
#传递参数
next.onclick(name,path,wangzhi,begin,end) B = tkinter.Button(root, text="确认", height="1", command=on, width='50')
B.pack(side=TOP) root.mainloop() # 进入消息循环

5.效果展示

最新文章

  1. C# XmlReader
  2. Android M新特性之Permissions
  3. windows下PHP5.5.6+Apache2.4.7配置
  4. zookeeper集群配置
  5. JavaScript中数字与字符串相互转化
  6. vue学习之父组件与子组件之间的交互
  7. Akka(33): Http:Marshalling,to Json
  8. route路由的顺序问题了数据包的转发流程
  9. 【ASP.NET Core快速入门】(十三)Individual authentication 模板、EF Core Migration
  10. Loj #528. 「LibreOJ β Round #4」求和 (莫比乌斯反演)
  11. Spring通过SchedulerFactoryBean实现调度任务的配置(定时器)
  12. PHP 正则表达式---匹配模式
  13. MAC机下用Terminal操作MySql
  14. webpack 学习
  15. Hyperldeger Fabric踩过的坑
  16. HDU 1823 Luck and Love (二维线段树&区间最值)题解
  17. oracle 获取星期日期
  18. centos环境下创建数据库和表的方法
  19. 中文乱码(Python、WEB、ajax)
  20. 数据库引擎InnoDB和MyISAM区别

热门文章

  1. 优化 Ubuntu
  2. JavaScript Boolean(逻辑)对象
  3. JS 自执行函数
  4. mysql是如何实现事务隔离以及MVCC详解
  5. 【JDK】JDK源码分析-AbstractQueuedSynchronizer(2)
  6. Altium Designer16绘制51单片机的一些经验总结
  7. 最基础的 ant build 脚本
  8. CentOS 7服务器安装brook和bbr加速
  9. APPCAN   版本控制SVN
  10. DataPipeline丨DataOps的组织架构与挑战