pdfminer获取每页的layout
2024-09-02 00:17:45
#! python2
# coding: utf-8 import sys from pdfminer import pdfparser
from pdfminer import pdfdocument
from pdfminer import pdfinterp
from pdfminer import pdfpage
from pdfminer import converter
from pdfminer import layout with file(file_path, 'rb') as fp:
parser = pdfparser.PDFParser(fp)
document = pdfdocument.PDFDocument(parser)
if not document.is_extractable:
raise pdfdocument.PDFTextExtractionNotAllowed
rsrcmgr = pdfinterp.PDFResourceManager()
laparams = layout.LAParams()
device = converter.PDFPageAggregator(rsrcmgr, laparams=laparams)
interpreter = pdfinterp.PDFPageInterpreter(rsrcmgr, device)
pdf_pages = pdfpage.PDFPage.create_pages(document)
for page in pdf_pages:
interpreter.process_page(page)
page_layout = device.get_result()
最新文章
- sql server2008给数据表,字段,添加修改注释
- caroufredsel 参数
- Yii2框架查询指定字段和获取添加数据的id
- [C++] 行程编码C++代码
- mysql performance_schema 初探
- ARM-Linux S5PV210 UART驱动(1)----用户手册中的硬件知识
- angularjs-yeoman环境配置
- 在eclipse中对于java的操作
- 利用css3-animation来制作逐帧动画
- 惊人go语言(image网站开发)
- 启用div作为编辑器 添加contentEditalbe属性
- Spring+SpringMVC+MyBatis集成学习笔记【一】
- vue中组件之间的相互调用,及通用后台管理系统左侧菜单树的迭代生成
- 什么是Docker??
- [LeetCode] Subdomain Visit Count 子域名访问量统计
- ckeditor粘帖上传图片控件-更新-2.0.15版本
- 20155317王新玮《网络对抗技术》实验9 web安全基础实践
- Verilog 加法器和减法器(5)
- 单细胞 RNA-seq 10X Genomics
- 使用jsonp跨域发送请求
热门文章
- wpf-MVVM界面自适应:界面自适应及字体自适应
- TP5.0中使用trace调试
- DIY Delphi 半透明窗体(2)
- 判断当前进程是否以管理员权限运行(AllocateAndInitializeSid后,用CheckTokenMembership与AdministratorsGroup进行比较,和Delphi的那个例子还有点不一样)
- 知识的内化:学习、实践、输出(与Focus Feedback FixIt的原理是一致的)
- Codility---BinaryGap
- 大数据基础之Kafka(1)简介、安装及使用
- 30441数据定义语言DDL
- API 文档管理工具 (Yapi) Docker Compose部署指南
- 【搜索引擎】Solr全文检索近实时查询优化