本文是solr6.6 导入 pdf/doc/txt/json/csv/xml文件 的继续,上篇在索引文件,唯独07格式的word文档不能正常抽取数据,进过研究测试终于,记录下属过程。

  其它步骤基本和solr6.6 导入 pdf/doc/txt/json/csv/xml文件一样,不同的地方如下:

  1、配置solrconfig.xml不同,改为如下:

    增加两个引用

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
<lib dir="./lib" regex=".*\.jar"/>

   

    因为在导入过程中用到了下面两个jar包

    

    因为在text字段中涉及到中文分词,要用到下面两个jar包,所以单独放在test下面lib(该文件夹下只有两个文件,和上次的不同)文件夹下面

    

    data-config.xml文件内容:

    

    导入文件:

    

    导入结果:

    

    同样,xls/xlsx/ppt/pptx类型的文件索引方式和word一样

最新文章

  1. [LeetCode] Number of Segments in a String 字符串中的分段数量
  2. 美团HD(2)-设置导航栏内容
  3. Python_Day_02 str内部方法总结
  4. android surfaceView 黑屏
  5. 【转载】Delphi7从子线程中发送消息到主线程触发事件执行
  6. win10 virtualbox5, ubuntu16.04 xshell5配合使用
  7. 数据库的Timeout
  8. Linux环境下搭建Tomcat+mysql+jdk
  9. 【嵌入式开发板】8月终极暑促迅为Cortex-a9四核入门开发板
  10. 夺命雷公狗ThinkPHP项目之----企业网站28之网站前台左侧导航的实现
  11. Data truncation: Truncated incorrect DOUBLE value 解决方案
  12. mybatis和model关联
  13. BackgroundWorker组件学习
  14. PHP无法加载MySQL模块
  15. Android系统Surface机制的SurfaceFlinger服务对帧缓冲区(Frame Buffer)的管理分析
  16. 一场由like引发的事故
  17. python修炼第三天
  18. 1.03-get_params2
  19. 【原创】InputStream has already been read - do not use InputStreamResource if a stream needs to be read multiple times
  20. [2017BUAA软工]第0次作业

热门文章

  1. 算法题之Climbing Stairs(leetcode 70)
  2. [ Python - 15 ] win7安装paramiko问题总汇
  3. jQuery中操作事件
  4. CentOS7下,安装网卡驱动,命令行手动连接WIFI指导
  5. java callable future futuretask
  6. docker1.13新功能上要关注的点
  7. 使用Postman访问OAuth2保护的WebAPI
  8. 使用Bot Service创建Bot Framework
  9. css :not 选择器
  10. $_ENV 为空的原因