lucene词库有哪些

Lucene 4.4.0中常用的几个分词器

一.WhitespaceAnalyzer 以空格作为切词标准,不对语汇单元进行其他规范化处理.很明显这个实用英文,单词之间用空格. 二.SimpleAnalyzer 以非字母符来分割文本信息,并将语汇单元统一为小写形式,并去掉数字类型的字符.很明显不适用于中文环境. 三.StopAnalyzer 停顿词分析器会去除一些常有a,the,an等等,也可以自定义禁用词,不适用于中文环境四.StandardAnalyzer 标准分析器是Lucene内置的分析器,会将语汇单元转成小写形式,并去除停用词及

Lucene使用IKAnalyzer分词实例及 IKAnalyzer扩展词库

文章转载自:http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html 方案一: 基于配置的词典扩充项目结构图如下: IK分词器还支持通过配置IKAnalyzer.cfg.xml文件来扩充您的专有词典.谷歌拼音词库下载: http://ishare.iask.sina.com.cn/f/14446921.html?from=like在web项目的src目录下创建IKAnalyzer.cfg.xml文件,内容如下 <?xml v

solr6.3.0升级与IK动态词库自动加载

摘要:对于中文的搜索来说,词库系统是一个很比较重要的模块,本篇以IK分词器为例子,介绍如何让分词器从缓存或文件系统中自动按照一定频次进行加载扩展词库 Lucene.Solr或ElasticStack如何从外部动态加载词库进入到内存作为分词使用,且这一系列动作不需要重启相应的搜索服务?当前市面上各种博客.论坛都是各种转载或者只是最简单的使用IK,根本无法达到线上使用的条件,而IK分词器默认是一次启动将主词库.停用词以及扩展词库全部加载完毕,后续如果再想要增加额外的扩展词就必须得修改对应的扩展词表并

solr添加中文IK分词器,以及配置自定义词库

Solr是一个基于Lucene的Java搜索引擎服务器.Solr 提供了层面搜索.命中醒目显示并且支持多种输出格式(包括 XML/XSLT 和 JSON 格式).它易于安装和配置,而且附带了一个基于HTTP 的管理界面.Solr已经在众多大型的网站中使用,较为成熟和稳定.Solr 包装并扩展了Lucene,所以Solr的基本上沿用了Lucene的相关术语.更重要的是,Solr 创建的索引与 Lucene搜索引擎库完全兼容.通过对Solr 进行适当的配置,某些情况下可能需要进行编码,Solr 可以

solr添加IK分词和自己定义词库

下载IK分词IK Analyzer 2012FF_hf1.zip 下载地址:http://yunpan.cn/cdvATy8899Lrw (提取码:c10d) 1.将IKAnalyzer2012FF_u1.jar包上传到服务器,复制到solr-4.10.4/example/solr-webapp/webapp/WEB-INF/lib目录下 2.在solr-4.10.4/example/solr-webapp/webapp/WEB-INF目录下创建目录classes,然后把IKAnalyzer.c

QQ五笔词库转拼音词库小工具

参考文章<用QQ拼音打五笔>中提供的信息而制作的小工具,功能是将QQ五笔导出词库文件转换为QQ拼音自定义短语使用的.ini格式文件,这样就可以使用QQ拼音进行五笔拼音混输了. 混输效果不错(设置方法见上述参考文章): 关键代码: void Button1Click(object sender, EventArgs e) { if(openFileDialog1.ShowDialog() == DialogResult.OK) { var lines = File.ReadAllLines(op

将搜狗词库.scel格式转化为.txt格式

由于项目中要用到词库,而下载的搜狗词库是.scel格式,所以就用python脚本将搜狗词库.scel格式文件转化为.txt格式文件. #!/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb try: reload(sys) sys.setdefaultencoding('utf-8') except: pass # 搜狗的scel词库就是保存的文本的unicode编码,每两

paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库.

paip.禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax ver:2012 IKAnalyzer 的默认词库的匹配度可能不好..可以使用扩展词库... 但是,更好的办法是,禁用IKAnalyzer 的默认词库.仅仅使用自定义词库. 需要实现Configuration接口,实现getMainDictionary以及

用C语言将搜狗输入法词库转换成QQ拼音输入法词库

搜狗输入法词库格式: 'ni'kan'xia 你看下 'ni'kan'xia'gai'hou 你看下改后 'ni'kan'xing'ma 你看行吗 'ni'kan'zen'me'yang 你看怎么样 'ni'kan'zhe 你看着 'ni'kan'zhe'ban 你看着办 'ni'kan'zhe'jiu'xing 你看着就行 'ni'kao'bu'kao 你考不考 'ni'kao'de 你考得 'ni'kao'wan 你考完 'ni'kao'yan 你考研 'ni'kao'yan'ma 你考研吗

paip.ikanalyzer 重加载词库的方法.

paip.ikanalyzer 重加载词库的方法. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax if(WordsLibController.lastWordsLib!=null) { dictionary.disableWords(WordsLibController.lastWordsLib); } WordsLibController.lastW

paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库.

paip..禁用mmseg 的默认词库. . 仅仅使用自定义词库from数据库. mmseg默认词库只能是文件格式...不好维护..要是不个词库放的个数据库里面走好维护兰.. 要实现2个目标..: 1.禁用默认词库,仅仅使用自定义词库 2.词库从数据库读取,而不使用默认的文件方式,方便维护.. 作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attilax Dictionary.getI

paip.数据挖掘--导出词库清理太长的iptcode

paip.数据挖掘--导出词库清理太长的iptcode 原来eng2atian的时候儿,有些cnchar无对眼的atian,走临时使用nonex代替... 而个,要不个那清理给挂了.. #keyword python 文件读写rwrite unicode #清理规则:长度大的9, 而且含有nonex 作者老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax #主要的算法如下 x=r"c:\导

paip.输入法编程---词库多意义条目分割 python实现.

paip.输入法编程---词库多意义条目分割 python实现. ==========子标题 python mysql 数据库操作多字符分隔,字符串分割字符列表循环作者老哇的爪子 Attilax 艾龙, EMAIL:1466519819@qq.com 来源: http://blog.csdn.net/attilax ===================主要的流程词库原来格式 carp n.鲤鱼:v.吹毛求疵 813 需要意义分割.. 主要的流程如下: for

paip.输入法英文词库的处理 python 代码 o4

paip.输入法英文词库的处理 python 代码 o4 目标是eng>>>中文>>atian 当输入非atian词的时候儿,能打印出 atian pinyin >>>english提示．． ,在根据英文输入．．＝＝＝＝＝下载源词库要下载一个格式好的词库文件还是很困难的．．几乎没．．只好自己写兰．．．下载一个-GRE 8k词库．．excel,删除不要的datasheet,导入mysql 格式如下: abandon v./n.放弃:放纵

paip 自定义输入法多多输入法词库的备份导出以及导入

paip 自定义输入法词库的备份导出以及导入作者Attilax 艾龙, EMAIL:1466519819@qq.com 来源:attilax的专栏地址:http://blog.csdn.net/attila /////////64位win7 哈的使用问题. 能安装..但是系统环境中不能直接使用.. 在应用中能使用了. //////////备份导出普通的32位机器,直接备份导出 64位机器,备份导出默认的功能不能使用..需要 search eveything 到个main.dmg ,不个这

Sphinx(coreseek) 安装使用以及词库的扩展

1.Sphinx(coreseek) 是啥一般而言,Sphinx是一个独立的全文搜索引擎:而Coreseek是一个支持中文的全文搜索引擎,意图为其他应用提供高速.低空间占用.高结果相关度的中文全文搜索能力.Sphinx/Coreseek可以非常容易的与SQL数据库和脚本语言集成. 也就是说Coreseek可以单独使用,不需要再安装Sphinx 2.从哪里获取 Sphinx原始版本可以从Sphinx官方网站 http://www.sphinxsearch.com/,Coreseek可以从

Atitit.atiInputMethod v2词库清理策略工具    q229

Atitit.atiInputMethod v2词库清理策略工具 q229 1.1. Foreigncode 外码清理1 1.2. 垃圾词澄清1 1.1. Foreigncode 外码清理 Only can Ascii and num Before Be4 For 4 1.2. 垃圾词澄清 Tool long Not common wordlib (3000-5000) 作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯阿克巴阿尔

Mac 鼠须管合并词库简单使用

之前一直没用过合成词库这功能,有个同步用户数据的选项,点它后,生成一个文件夹,里面就有当前的一些配置,词库之类的 /Users/dfpo/Library/Rime/sync 这样我们就得到了一个装着用户数据的文件夹,同样的操作,假如你在公司也有这份数据就可以合并了. 把这些词库文件夹放sync下,再点击同步用户数据,就会把这些词库合并了,智能合并

解析搜狗词库(python)

#!/usr/bin/python # -*- coding: utf-8 -*- import struct import sys import binascii import pdb #搜狗的scel词库就是保存的文本的unicode编码,每两个字节一个字符(中文汉字或者英文字母) #找出其每部分的偏移位置即可 #主要两部分 #1.全局拼音表,貌似是所有的拼音组合,字典序 # 格式为(index,len,pinyin)的列表 # index: 两个字节的整数代表这个拼音的索引 # len:

CentOS安装搜狗词库

中文输入使用ibus-pinyin. 在ibus-pinyin里使用搜狗词库 # wget http://hslinuxextra.googlecode.com/files/sougou-phrases-full.7z# 7za x sougou-phrases-full.7z# cp ibus/android.db /usr/share/ibus-pinyin/db/android.db# 输入y确认覆盖

ibus用上搜狗拼音词库

1.下载搜狗拼音词库 wget http://hslinuxextra.googlecode.com/files/sougou-phrases-full.7z 2.用sougou-phrases-full.7z中的ibus/android.db文件替换/usr/share/ibus-pinyin/db/android.db文件.

巴特西