解压.docx文件实现提取图片

前言

.docx文件其实也就是一个压缩文件,当我们将一个.docx文件直接解压后可以看到如下目录

其中我们要找的图片就在word/media目录内,如图

所以,要提取word内的图片就需要将.docx文件解压,再从media文件内取得图片,然后将解压后的文件删除

代码实现

import os
import shutil
import zipfile def get_pictures(word_path, result_path):
"""
获取word内的所有图片
:param word_path: word文件
:param result_path: 结果目录,无需手动创建
:return: None or generator,None:word内没有图片,generator:每个图片的路径
"""
tmp_path = f'{os.path.splitext(word_path)[0]}'
# 拷贝源文件后重命名再解压
splitext = os.path.splitext(word_path)
zip_path = shutil.copy(word_path, f'{splitext[0]}_new{splitext[1]}')
with zipfile.ZipFile(zip_path, 'r') as f:
for file in f.namelist():
f.extract(file, tmp_path)
os.remove(zip_path)
# 注:word图片在zip文件内的word/media目录下
pic_path = os.path.join(tmp_path, 'word/media')
if not os.path.exists(pic_path):
shutil.rmtree(tmp_path)
return 'no pictures found'
pictures = os.listdir(pic_path)
if not os.path.exists(result_path):
os.makedirs(result_path)
for picture in pictures:
# 根据word的文件名生成图片的名称
word_name = os.path.splitext(word_path)[0]
if os.sep in word_name:
new_name = word_name.split('\\')[-1]
else:
new_name = word_name.split('/')[-1]
picture_name = f'{new_name}_{picture}'
shutil.copy(os.path.join(pic_path, picture), os.path.join(result_path, picture_name)) shutil.rmtree(tmp_path)
return (os.path.join(result_path, pic) for pic in os.listdir(result_path))

word_path可以支持所有类型路径,如

p = r"C:\Users\Desktop\test\小说.docx"
p1 = "C:/Users/Desktop/test/小说.docx"
p2 = "C:\\Users\\Desktop\\test\\小说.docx"

利用三方库docx实现图片提取(推荐)

import docx
import os, re def get_pictures(word_path, result_path):
"""
图片提取
:param word_path: word路径
:param result_path: 结果路径
:return:
"""
doc = docx.Document(word_path)
dict_rel = doc.part._rels
for rel in dict_rel:
rel = dict_rel[rel]
if "image" in rel.target_ref:
if not os.path.exists(result_path):
os.makedirs(result_path)
img_name = re.findall("/(.*)", rel.target_ref)[0]
word_name = os.path.splitext(word_path)[0]
if os.sep in word_name:
new_name = word_name.split('\\')[-1]
else:
new_name = word_name.split('/')[-1]
img_name = f'{new_name}_{img_name}'
with open(f'{result_path}/{img_name}', "wb") as f:
f.write(rel.target_part.blob)

最新文章

  1. Xcode 常用快捷键
  2. python之模块安装
  3. Linux 常用命令笔记 (持续更新)
  4. Struts2中关于"There is no Action mapped for namespace / and action name"的总结
  5. Android——主流分辨率
  6. C#判断当前操作系统
  7. 拼写sql语句随笔
  8. jquery判断input值不为空 val()
  9. C#执行参数为游标 返回一个记录集的Oracle存储过程
  10. jdbc 处理mysql procedure返回的多个结果集
  11. Android学习之SQLite学习
  12. AJAX - 创建 XMLHttpRequest 对象
  13. 关于Django字段类型中 blank和null的区别
  14. smb 访问时 提示权限不够
  15. log4j:WARN No appenders could be found for logger 解决方案
  16. kafka集群管理
  17. 《转载》python爬虫实践之模拟登录
  18. linux 拷贝软连接文件
  19. OO Summary Ⅲ
  20. [BZOJ2687]交与并[决策单调性]

热门文章

  1. 前端下载的方式总结(url,文件流,压缩包)
  2. MobaXterm汉化版教程
  3. flex_bison
  4. docker rabbitMQ安装
  5. 实验一 密码引擎-2-OpenEuler-OpenSSL测试
  6. js导出数据为excel表
  7. popen函数和pyinstaller打包之 -w冲突
  8. 软件工程日报六——TextView和button
  9. Jquery 简单实现demo
  10. 《【转载】ChatGPT创始人,给我们上的8堂课》 回复