最近需要把PDF解析为文字,查了查python的模块,发现PDFminer3k能满足需求。我使用的是 windows平台下的python3.6,python2的则下载pdfminer。

首先下载:直接 pip install pdfminer3k。

在网上找了教程代码跑了下自己用word转的pdf测试文件,可以解析成文字。

教程网址:http://blog.csdn.net/PianoOrRock/article/details/70666286?reload

然后运行自己真正需要的PDF时,报错:

刚开始我天真的以为是pdf加密了,后来查了下发现pdfminer3k自带能解密一些简单的加密方法,且遇到加密报错不是这样的。

然后重新仔细研究报错,觉得应该是pdf的字体的问题,pdfminer3k不能解析特殊字体,需要下载相应的字体包来解决。

字体包下载网站:https://github.com/euske/pdfminer/pull/71/commits/2103e5875ef04cfaf424b25d2fd0dc9535a90714#diff-11a7e5c9b1cb16f0ae7d0276f643956d

下载好了GBK-EUC-H和UniGB-UCS2-H不要解压直接放在 pdfminer/cmap文件夹下。

运行后继续报错:

PDFMiner里并没有GBK-EUC-H和UniGB-UCS2这两个编码的解码文件,所以输出了一堆cid,继续去上面的网站找到这种编码解码包,下载后不要解压直接放到上面的文件夹里:

运行,解析成功!

最新文章

  1. c# 枚举
  2. Android之使用个推实现三方应用的推送功能
  3. Python 变量范围
  4. SpringMVC文件上传实现
  5. Container Stack
  6. 重新想象 Windows 8.1 Store Apps (75) - 新增控件: Hub, Hyperlink
  7. javascript实例学习之六—百叶窗效果
  8. NetCore第一步:千里之行 始于环境构筑
  9. [转] ArcGIS engine中气泡标注的添加、修改
  10. jQuery HTML CSS 方法
  11. Matlab聚类分析[转]
  12. input file文件上传样式
  13. maven部署命令
  14. python高级编程之选择好名称:完
  15. inet_addr() inet_ntoa() inet_pton inet_ntop sockaddr_in
  16. [WF4.0 现实] WF4.0 Receive && Send
  17. 一个栗子上手CSS3动画
  18. 团队开发---”我爱淘“校园二手书店 NABC分析
  19. [Swift]LeetCode543. 二叉树的直径 | Diameter of Binary Tree
  20. acm 2057

热门文章

  1. 常见浏览器兼容性问题与解决方案css篇
  2. myeclipse maven工程调试调试
  3. PHP生成zip压缩包
  4. hdu1542 Atlantis(矩阵面积的并)
  5. tf.nn.embedding_lookup函数的用法
  6. 在 Angularjs 中 ui-sref 和 $state.go
  7. WebService之Axis2(1):用POJO实现0配置的WebService
  8. CloudFlare CDN折腾记-优化设置
  9. STA分析(二) multi_cycle and false
  10. Spring,Struts2,MyBatis,Activiti,Maven,H2,Tomcat集成(二)——Struts2集成