读取pdf中的内容
import com.spire.pdf.PdfDocument;
import com.spire.pdf.PdfPageBase;
import java.io.*;
public class Extract_Text {
public static void main(String[] args) {
//创建PdfDocument实例
PdfDocument doc= new PdfDocument();
//加载PDF文件
doc.loadFromFile("test.pdf");
StringBuilder sb= new StringBuilder();
PdfPageBase page;
//遍历PDF页面,获取文本
for(int i=0;i<doc.getPages().getCount();i++){
page=doc.getPages().get(i);
sb.append(page.extractText(true));
}
FileWriter writer;
try {
//将文本写入文本文件
writer = new FileWriter("ExtractText.txt");
writer.write(sb.toString());
writer.flush();
} catch (IOException e) {
e.printStackTrace();
}
doc.close();
}
最新文章
- 解读ASP.NET 5 &; MVC6系列(14):View Component
- 两个不同的list随机组合到一个List中。
- 设置mysql utf8
- Yii中的错误及异常处理
- 主机与虚拟机通信:以主机VS2010连接虚拟机MySql为例
- 关于JSPatch热修复
- Components of the Impala Server
- windows API 核心编程学习心得
- 自动化测试(二):QTP验证点
- 析构函数释放内存时出现_BLOCK_TYPE_IS_VALID错误
- 简谈-Python一些常用的爬虫技巧
- CSDN专访:大数据时代下的商业存储
- @Data注解使用后在eclipse中get/set报错解决方法
- grep、awk、sed的巩固练习
- Java 中的字符串与 []byte 字节数组
- shiro框架-配置
- python中的replace()方法的使用
- Qt 编程指南 4 单行编辑控件
- ajax模拟获取json
- Wrapper
热门文章
- Spring与Web环境集成
- Flv.js记录(vue)
- 20200416_Centos 7.2 在安装系统之前把数据备份出来
- day3(axios封装)
- 转:为什么浏览器的user-agent字符串以'Mozilla'开头呢?
- PyQt(Python+Qt)学习随笔:Qt中的部分类型QString、QList和指针、引用在PyQt中的实现方式
- 第15.13节 PyQt(Python+Qt)入门学习:Qt Designer的Spacers部件详解
- Docker 安装-在centos7下安装Docker(二)
- PostgreSQL 如何忽略事务中错误
- WPF源代码分析系列一:剖析WPF模板机制的内部实现(一)