记录过程。

Lucene分词:http://blog.csdn.net/cyxlzzs/article/details/7999212

Lucene自定义词典:http://lilongbao.blog.163.com/blog/static/2128760512013689194583/

注意点:.dic文件要以utf-8保存

不过这里有一个疑惑:

.doc文件如果改为GBK保存,IKAnalyzer.cfg.xml文件的开头:<?xml version="1.0" encoding="UTF-8"?> 改为 <?xml version="1.0" encoding="GBK"?>  再运行,.java文件效果无效,也就自定义停止词典无效。

下面就是.txt文件的java读写实现。

java读取TXT文件的方法:http://www.cnblogs.com/manongxiaojiang/archive/2012/10/13/2722068.html

java逐行读取和写入文本文件txt:http://blog.csdn.net/softimes/article/details/7225879

已经改写,实现txt的java读入和写出。

将10个txt文件路径以String 类型读取,每个文件分词,每10个一行输出到新路径。

最新文章

  1. tomcat学习笔记一:安装和配置
  2. 3-5 RPM包校验
  3. android 使用系统照相程序照相并存储、显示在界面上
  4. Runtime.getRuntime().addShutdownHook(shutdownHook);
  5. input type=&quot;file&quot;去掉取消默认原来选择的文件
  6. PXE+Kickstart无人值守安装操作系统
  7. 【转】无法获得锁 /var/lib/dpkg/lock - open (11: 资源暂时不可用) ubuntu 安装vim 及遇到的错误处理
  8. puppeteer端对端测试demo
  9. 智能合约遇到的小错误 network up to date解决办法
  10. ESP32作为接入点AP
  11. php计算utf8字符串长度
  12. Redis常用操作--------SortedSet(有序集合)
  13. bootstrap----几个插件网址
  14. stale element reference: element is not attached to the page document 异常
  15. idc交叉引用
  16. 神经网络优化算法如何选择Adam,SGD
  17. Mysql数据备份与还原
  18. 单例模式(Singleton)
  19. September 20th 2017 Week 38th Wednesday
  20. Spring源码解析 – AnnotationConfigApplicationContext容器创建过程

热门文章

  1. 【C#】 创建和调用webapi
  2. vue 用axios实现调用接口下载excel
  3. LinkExtractor 构造器各参数说明
  4. JS生成gif动态图下载
  5. 【bzoj4800】: [Ceoi2015]Ice Hockey World Championship dfs
  6. 利用DSB2017冠军开源代码为LUNA16生成mask
  7. Entity Framework 更新带外键的实体为null
  8. poj1840 五项式等于0(哈希)
  9. navicat data modeler的使用以及数据库设计的流程
  10. 杭电ACM hdu 2079 选课时间 (模板)