//最简单实例

String ruiec = “分词测试123456100名”;
//剔除指定的分词
s.insertStopWords("100名");
//剔除标点符号(w)
s.insertStopNatures("w");
//删除指定字
s.insertStopRegexes("请.*?");
String result1=ToAnalysis.parse(ruiec).recognition(s).toStringWithOutNature().replaceAll(","," "); System.out.println(result1);

以上是使用ansj分词器的最简单实例。

import org.ansj.app.keyword.KeyWordComputer;
import org.ansj.app.keyword.Keyword;
import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.recognition.impl.StopRecognition;
import org.ansj.splitWord.analysis.ToAnalysis; import java.util.*; /**
* Created by Liu
*/
public class SplitWordsByAnsj { public Keyword spiltword(String word) {
KeyWordComputer<?> kwc = new KeyWordComputer(5);
StopRecognition s = new StopRecognition();
List<Keyword> result=kwc.computeArticleTfidf(word);
return result.get(0); }
public static void main(String[] args) {
String word = "政务云是指通过云计算技术,统筹机房、计算、应用支撑、信息资源等,发挥云计算的虚拟化、高可靠性、高通用性、高可扩展性,使其数据处理快速、按需、弹性服务,为政府行业提供基础设施、支撑软件、应用系统、信息资源、运行保障和信息安全等综合服务平台。"; SplitWordsByAnsj ansj= new SplitWordsByAnsj();
System.out.println(ansj.spiltword(word).toString());//词组
System.out.println(ansj.spiltword(word).getScore());//词组的权重 }
}

以上是将一个句子分为几个词组,并展示出词组在句子中所占的权重,根据权重大小输出

KeyWordComputer<?> kwc = new KeyWordComputer(5)可以设置
输出词组的个数
public class SplitWordsByAnsj {

    public Keyword spiltword(String title,String content) {
KeyWordComputer<?> kwc = new KeyWordComputer(5);
StopRecognition s = new StopRecognition();
//List<Keyword> result=kwc.computeArticleTfidf(word);
List<Keyword> result1=kwc.computeArticleTfidf(title, content);
return result1.get(0); }
public static void main(String[] args) {
String title ="政务云是云计算技术";
String content = "政务云(Government Cloud)是指通过云计算技术,统筹机房、计算、应用支撑、信息资源等,发挥云计算的虚拟化、高可靠性、高通用性、高可扩展性,使其数据处理快速、按需、弹性服务,为政府行业提供基础设施、支撑软件、应用系统、信息资源、运行保障和信息安全等综合服务平台。"; SplitWordsByAnsj ansj= new SplitWordsByAnsj();
System.out.println(ansj.spiltword(title,content).toString());//词组
System.out.println(ansj.spiltword(title,content).getScore());//词组的权重 }
}
以上是根据标题将内容分为与标题相关的词组,即关键词

数据包

最新文章

  1. Live555流媒体服务器编译(Windows下)
  2. 进程间通信(linux)(转)
  3. HDU 2083 简易版之最短距离 --- 水题
  4. 原密码忘了,重置MAC开机密码
  5. 50道经典的JAVA编程题(21-25)
  6. 2017年AR大会上海站干货分享
  7. ionic3中 ion-datetime 全屏可点击问题解决方案
  8. 一起聊聊什么是P问题、NP问题、NPC问题
  9. windbg分析运行在64位环境下的32位程序的dump
  10. Vue.js 2.x笔记:基本语法(2)
  11. struts拦截器的知识
  12. HBase入门教程ppt
  13. easyui的datagrid为何无法显示json数据
  14. 使用nginx实现浏览器跨域请求
  15. DBProxy
  16. pyinstaller基本操作
  17. VS2010常用插件
  18. oracle数据库定时任务
  19. VS中让用户选择路径
  20. MPU/SoC/Application Processor/Embedded OS

热门文章

  1. Python文件重命名代码
  2. Centos下使用subversion
  3. python的dict,set,list,tuple应用详解
  4. Session对象的生命周期(面试题/笔试题)
  5. bootstrap select2控件
  6. XMLHttpRequest 对象相关
  7. HtML5与CSS3基础
  8. 爬虫4之pyquery
  9. (转)Jenkins2.0 Pipeline 插件执行持续集成发布流程 - git -资料 - 不错的文档
  10. jinja2模板接受