solr6.6 索引 word文档
2024-10-21 02:59:06
本文是solr6.6 导入 pdf/doc/txt/json/csv/xml文件 的继续,上篇在索引文件,唯独07格式的word文档不能正常抽取数据,进过研究测试终于,记录下属过程。
其它步骤基本和solr6.6 导入 pdf/doc/txt/json/csv/xml文件一样,不同的地方如下:
1、配置solrconfig.xml不同,改为如下:
增加两个引用
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
<lib dir="./lib" regex=".*\.jar"/>
因为在导入过程中用到了下面两个jar包
因为在text字段中涉及到中文分词,要用到下面两个jar包,所以单独放在test下面lib(该文件夹下只有两个文件,和上次的不同)文件夹下面
data-config.xml文件内容:
导入文件:
导入结果:
同样,xls/xlsx/ppt/pptx类型的文件索引方式和word一样
最新文章
- [LeetCode] Number of Segments in a String 字符串中的分段数量
- 美团HD(2)-设置导航栏内容
- Python_Day_02 str内部方法总结
- android surfaceView 黑屏
- 【转载】Delphi7从子线程中发送消息到主线程触发事件执行
- win10 virtualbox5, ubuntu16.04 xshell5配合使用
- 数据库的Timeout
- Linux环境下搭建Tomcat+mysql+jdk
- 【嵌入式开发板】8月终极暑促迅为Cortex-a9四核入门开发板
- 夺命雷公狗ThinkPHP项目之----企业网站28之网站前台左侧导航的实现
- Data truncation: Truncated incorrect DOUBLE value 解决方案
- mybatis和model关联
- BackgroundWorker组件学习
- PHP无法加载MySQL模块
- Android系统Surface机制的SurfaceFlinger服务对帧缓冲区(Frame Buffer)的管理分析
- 一场由like引发的事故
- python修炼第三天
- 1.03-get_params2
- 【原创】InputStream has already been read - do not use InputStreamResource if a stream needs to be read multiple times
- [2017BUAA软工]第0次作业