本文主要是介绍通过SimplePostTool工具索引文件的结果进行确认,针对不同的文件,索引的结果不同。

  1、创建core

    首先启动solr,建立名称为data的core,SimplePostTool工具使用参照:http://www.cnblogs.com/shaosks/p/7390523.html

    由于导入文件的过程需要用到post.jar这个包,所以先把solr-6.6.0\example\exampledocs文件夹下的post.jar拷贝到solr-6.6.0\bin文件夹下。

    solr start;  solr create -c data

    

  2、导入文件

    和solr-6.6.0\bin文件夹同级目录下Import文件夹,下面有以下有8个文件:

    

    其中前三个文件都是结构化的,有对应的字段。后面的文件就是非结构化的文件。现在导入

    2.12017-07-07_info.csv文件

    内容如下,需要注意的是csv文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    

    2.2、books.json文件

    内容如下,需要注意的是books.json格式不能保存为utf-8的格式,否则导入时报错。

    

  2.3、xml文件

    内容如下,需要注意的是xml文件由于包含中文,所以必须以utf-8格式保存,否则导入后,中文是乱码

    

    

    导入命令:  java -Dauto=yes -Dc=mycore -jar post.jar ..\Import\*.*

    

  3、配置文件

   注意data\conf下的配置文件managed-schema,注意里面的内容在导入前和导入后的变化,在导入后,对于上面的csv,json和json这三个结构化文档中涉及的字段,都会自动增加到managed-schema文档中

   下面这些字段都是导入过程自动增加的

    

   

  4、导入结果查询

    1、2017-07-07_info.csv索引结果

     奇怪的是原来csv文件中title字段,变为了_title,前面增加了一个下划线,经过多次测试,都第一个字段,增加一个下划线。

    

      把文件中的title字段改为scheme,

      

      重新导入,查询结果:scheme字段前面又增加了一个下划线

      

      在CSV文件增加一列blank_title,该列都是空值

      

      重新导入,结果正常,而且blank_title也不会索引

      

    2、books.json索引结果

      

    3、mem.xml索引结果

      

    4、十九大报告全文.docx索引结果

    

    同样doc, pdf和txt格式的文件索引结果都是类似的,因此对这样的文件索引要用其它方式。

   

   总结:SimplePostTool工具适合索引csv/json/xml这种结构化文档,像doc, pdf和txt这种非结构化,索引数据后无法搜索相关的信息

最新文章

  1. Microsoft Visual Studio 2013 Update 5 direct download link for full ISO
  2. uva 12745 Wishmaster(2-sat)
  3. 字节流、字符串、16进制字符串转换__Java(转)
  4. HDU2243_考研路茫茫――单词情结
  5. iOS 你将会遇到的
  6. SQL 报错信息整理及解决方案(持续更新)
  7. php生成mysql的数据字典
  8. golang的哪些坑爷事: package实践
  9. hadoop1常见配置含义
  10. 如何利用PhoneGap制作地图APP
  11. LOG4J.PROPERTIES配置详解(转载)
  12. orzdba在5.6安装
  13. Servlet课程0425(五) sendRedirect实现不同页面共享数据
  14. Dropdownlist的onchange事件应用
  15. 【POJ 3279 Fliptile】开关问题,模拟
  16. 自制ichartjs饼图
  17. Python 进度条显示
  18. 学习 Spring (二) Spring 注入
  19. Could not find a package configuration file provided by "Sophus",SophusConfig.cmake
  20. Cobbler安装CentOS7系统时报错 line 286: No space left on device

热门文章

  1. python用户登录,密码错误3次则锁定
  2. Kuangbin 带你飞 KMP扩展KMP Manacher
  3. 解决:centos7.3 tomcat7启动巨慢问题
  4. tushrea知识笔记
  5. k8s的chart学习(上)
  6. C# 日期格式化{0:yyyy-MM-dd HH:mm:ss.fff}和{0:yyyy-MM-dd hh:mm:ss.fff}的区别(转)
  7. codeforces 739E
  8. 将win平台上的mysql数据复制到linux上报错Can't write; duplicate key in table
  9. (二)shell变量
  10. EasyUI中combobox的代码实例