利用 Lucene,在创建索引的工程中你可以充分利用机器的硬件资源来提高索引的效率。当你需要索引大量的文件时,你会注意到索引过程的瓶颈是在往磁盘上写索引文件的过程中。为了解决这个问题, Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢?幸运的是,Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大小以及往磁盘上写索引文件的频率。

1.合并因子(mergeFactor)

这 个参数决定了在 Lucene 的一个索引块中可以存放多少文档以及把磁盘上的索引块合并成一个大的索引块的频率。比如,如果合并因子的值是 10,那么当内存中的文档数达到 10 的时候所有的文档都必须写到磁盘上的一个新的索引块中。并且,如果磁盘上的索引块的隔数达到 10 的话,这 10 个索引块会被合并成一个新的索引块。这个参数的默认值是 10,如果需要索引的文档数非常多的话这个值将是非常不合适的。对批处理的索引来讲,为这个参数赋一个比较大的值会得到比较好的索引效果。

2.最小合并文档数

这个参数也会影响索引的性能。它决定了内存中的文档数至少达到多少才能将它们写回磁盘。这个参数的默认值是10,如果你有足够的内存,那么将这个值尽量设的比较大一些将会显著的提高索引性能。

3.最大合并文档数

这个参数决定了一个索引块中的最大的文档数。它的默认值是 Integer.MAX_VALUE,将这个参数设置为比较大的值可以提高索引效率和检索速度,由于该参数的默认值是整型的最大值,所以我们一般不需要改动这个参数。
     //indexDir is the directory that hosts Lucene's index files
     File    indexDir = new File("C://luceneIndex");
     Analyzer luceneAnalyzer = new StandardAnalyzer();
     File[] textFiles   = fileDir.listFiles();
     long startTime = new Date().getTime();      int mergeFactor = 10;
     int minMergeDocs = 10;
     int maxMergeDocs = Integer.MAX_VALUE;
     IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);        
     indexWriter.mergeFactor = mergeFactor;
     indexWriter.minMergeDocs = minMergeDocs;
     indexWriter.maxMergeDocs = maxMergeDocs;      //Add documents to the index
     for(int i = 0; i   > textFiles[i].getName().endsWith(".txt")){
         Reader textReader = new FileReader(textFiles[i]);
         Document document = new Document();
         document.add(Field.Text("content",textReader));
         document.add(Field.Keyword("path",textFiles[i].getPath()));
         indexWriter.addDocument(document);
       }
     }      indexWriter.optimize();
     indexWriter.close();
     long endTime = new Date().getTime();      System.out.println("MergeFactor: " + indexWriter.mergeFactor);
     System.out.println("MinMergeDocs: " + indexWriter.minMergeDocs);
     System.out.println("MaxMergeDocs: " + indexWriter.maxMergeDocs);
     System.out.println("Document number: " + textFiles.length);
     System.out.println("Time consumed: " + (endTime - startTime) + " milliseconds");
   }
}

判断索引目录的segments文件是否存在,
    如果存在,用增量索引
        否则, 重新创建索引

如果是重新创建索引
    只需要遍历需要索引的内容,然后新增文档
        
 如果是增量索引
    判断主Key[文件名(包含全路径)]在索引中是否存在
        如果存在
            判断[文件的修改时间],是否和索引中保存的[修改时间]一致
            如果不一致
                删除旧的索引中的该索引项目
                新增对该文档的索引
       否则
            新增该文档的索引 缺点,不能发现已经删除的文件,当然是认为的去某个目录删除该文件。
      如果是程序的话当然是可以的,只需要把索引中的项目删除。

最新文章

  1. mysql_multi启动数据库
  2. 《深入理解Spark:核心思想与源码分析》一书正式出版上市
  3. NodeJS Hello world
  4. C语言-02-基本运算
  5. WPF入口Application
  6. vim 配置 设置搜索 高亮
  7. 【转】Nginx+Tomcat+Memcached集群Session共享
  8. (转) 技术揭秘:海康威视PASCAL VOC2012目标检测权威评测夺冠之道
  9. jQuery 工具类库集锦
  10. background-clip 背景图片做适当的裁剪
  11. 认识变量------JAVA
  12. [LeetCode101]Symmetric Tree
  13. 自己动手实现网络服务器(Web Server)——基于C#
  14. TIJ学习总结(1)- Java基础语法
  15. Python网络编程(1)-socket
  16. FFmpeg的H.264解码器源代码简单分析:解码器主干部分
  17. JAVA项目中常用的异常处理情况
  18. 【Java】MyBatis与Spring框架整合(二)
  19. winform接收全局的快捷键
  20. CAD:计算三角形的外接圆圆心

热门文章

  1. 重装系统之后Hexo快速配置
  2. VS中调试时监控线程的最后错误代码
  3. UPX3.03+UpolyX.5 Shell v1.0 汉化绿色版
  4. 网页 CSS样式表
  5. 水电pd建表
  6. 使用timer定时器,防止事件重入
  7. ssh连接ubuntu提示连接不上的问题
  8. 12C CLONE PDB and config service_listener
  9. MFC连接Access讲解(3合1) .
  10. VS中的快捷键快速格式化代码,使好看,整齐