使用PDFminer3k解析pdf为文字遇到:WARING:root:GBK-EUC-H
2024-08-21 07:24:05
最近需要把PDF解析为文字,查了查python的模块,发现PDFminer3k能满足需求。我使用的是 windows平台下的python3.6,python2的则下载pdfminer。
首先下载:直接 pip install pdfminer3k。
在网上找了教程代码跑了下自己用word转的pdf测试文件,可以解析成文字。
教程网址:http://blog.csdn.net/PianoOrRock/article/details/70666286?reload
然后运行自己真正需要的PDF时,报错:
刚开始我天真的以为是pdf加密了,后来查了下发现pdfminer3k自带能解密一些简单的加密方法,且遇到加密报错不是这样的。
然后重新仔细研究报错,觉得应该是pdf的字体的问题,pdfminer3k不能解析特殊字体,需要下载相应的字体包来解决。
字体包下载网站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d
下载好了GBK-EUC-H和UniGB-UCS2-H不要解压直接放在 pdfminer/cmap文件夹下。
运行后继续报错:
PDFMiner里并没有GBK-EUC-H和UniGB-UCS2这两个编码的解码文件,所以输出了一堆cid,继续去上面的网站找到这种编码解码包,下载后不要解压直接放到上面的文件夹里:
运行,解析成功!
最新文章
- c# 枚举
- Android之使用个推实现三方应用的推送功能
- Python 变量范围
- SpringMVC文件上传实现
- Container Stack
- 重新想象 Windows 8.1 Store Apps (75) - 新增控件: Hub, Hyperlink
- javascript实例学习之六—百叶窗效果
- NetCore第一步:千里之行 始于环境构筑
- [转] ArcGIS engine中气泡标注的添加、修改
- jQuery HTML CSS 方法
- Matlab聚类分析[转]
- input file文件上传样式
- maven部署命令
- python高级编程之选择好名称:完
- inet_addr() inet_ntoa() inet_pton inet_ntop sockaddr_in
- [WF4.0 现实] WF4.0 Receive &;amp;&;amp; Send
- 一个栗子上手CSS3动画
- 团队开发---”我爱淘“校园二手书店 NABC分析
- [Swift]LeetCode543. 二叉树的直径 | Diameter of Binary Tree
- acm 2057
热门文章
- 常见浏览器兼容性问题与解决方案css篇
- myeclipse maven工程调试调试
- PHP生成zip压缩包
- hdu1542 Atlantis(矩阵面积的并)
- tf.nn.embedding_lookup函数的用法
- 在 Angularjs 中 ui-sref 和 $state.go
- WebService之Axis2(1):用POJO实现0配置的WebService
- CloudFlare CDN折腾记-优化设置
- STA分析(二) multi_cycle and false
- Spring,Struts2,MyBatis,Activiti,Maven,H2,Tomcat集成(二)——Struts2集成