Tika可以从文件中提取元数据。

什么是元数据:

元数据是文件所提供的的附件信息即文件的属性。  

word文档的元数据:

  

Tika提取元数据:

我们可以使用文件parse()方法提取元数据,传递一个空的元数据对象作为一个参数。这种方法提取指定的文件的元数据(如果该文件中包含有),并将它们放置在元数据对象。因此,在使用parse()解析文件后,就可以提取该对象的元数据。

下面是完成提取元数据的例子

  @Test
public void getMetadataToImg() throws IOException, TikaException, SAXException {
File file = new File("F:\\页面\\数字档案室\\html - 副本\\style\\erms\\images\\hintIcon.png");
Parser parser = new AutoDetectParser();
BodyContentHandler handler = new BodyContentHandler();
Metadata metadata = new Metadata();
FileInputStream inputstream = new FileInputStream(file);
ParseContext context = new ParseContext();
parser.parse(inputstream, handler, metadata, context);
String[] metadataNames = metadata.names();
for (String name : metadataNames) {
System.out.println(name + ": " + metadata.get(name));
}
}

获取结果:

文档参考网址:https://www.sxt.cn/tika/tika_metadata_extraction.html

最新文章

  1. 微软将向Linux用户提供SQL Server程序
  2. java String类
  3. PHP json_encode中文乱码解决方法
  4. [java基础]循环结构1
  5. 《Programming with Objective-C》第八章 Working with Blocks
  6. php中文汉字截取函数
  7. android webview type=file文件上传,安卓端代码
  8. Android经常使用自己定义控件
  9. c/c++中动态内存分配处理字符串的细节问题
  10. [RxJS] Transformation operators: debounce and debounceTime
  11. centOs下的php+mysql+apache+ftp配置
  12. testng实现场景恢复
  13. js类型转换比较表格
  14. Linux编程 24 shell编程(结构化 if [ condition ] 数值比较,字符串比较)
  15. 【Java8】@FunctionalInterface
  16. Alpha冲刺-第三天
  17. Adobe Acrobat Reader DC 离线安装包
  18. 倒计时5,4,3,2,1css实现(count down from 5 to 1 using css)
  19. Lonely(非洲NANA作品)
  20. Python 从零搭建 Conf_Web 配置管理平台

热门文章

  1. docker安装并设置开机启动(CentOS7/8)
  2. 使用 docker 快速安装 oracle 11g
  3. RDS数据库全量恢复方案
  4. LNMP分离
  5. css sprite 雪碧图
  6. 忘记mysql或mariadb数据库的密码之解决方案
  7. PHP上传超大文件解决方案
  8. Docker参数 -i -t 的作用
  9. C++ N叉树的实现
  10. mybatis 基于xml 配置的映射器