自然语言处理是机器学习的一个重要分支,在智能翻译、智能问答、舆情监控、ChatOps等都有很好的应用场景,目前比较好的一个开源实现工具是何晗大神的HanLP,主页(http://hanlp.com/),GitHub项目(https://github.com/hankcs/HanLP),何大神还出了一本书《自然语言处理入门》,非常不错。

由于工作需要,我们使用HanLP对监控平台收集到的异常信息进行聚类分析,以便找出导致系统出现故障的可能的根因异常,以下是将HanLP与Flink结合使用时的几个点,愿与感兴趣的同行一起探讨。

一、开发期

1.在pom.xml中引入HanLP的jar包:

        <dependency>
<groupId>com.hankcs</groupId>
<artifactId>hanlp</artifactId>
<version>portable-1.7.6</version>
<scope>provided</scope>
</dependency>

二、运行期

假设Flink安装在:/usr/flink

1.将hanlp-1.7.6.jar部署到Flink集群每个安装目录下的lib文件夹中

/usr/flink/lib

2.在Flink安装目录下建立hanlp文件夹(名字可以自己定义)

/usr/flink/hanlp

3.将下载的HanLP需要的data.zip解压后,放到步骤2的文件夹中

/usr/flink/halp/data/.....

】HanLP默认是本地文佳加载词典和模型的,如果把data.zip文件传到了其他存储介质,需要实现com.hankcs.hanlp.corpus.io.IIOAdapter接口以在不同的平台(Hadoop、Redis等)上运行HanLP

4.在/etc/profile中建立HANLP_ROOT环境变量,指向步骤2对应的文件夹

export HANLP_ROOT=/usr/flink/hanlp

】使用环境变量,可以不需要配置hanlp.properties

5.使设置的环境变量生效

source /etc/profile

最新文章

  1. Linux VMware 克隆后无法启动eth0网卡
  2. JavaScript数组:增删改查、排序等
  3. Iterator中hasNext(), next() 和ResultSet结果集的next方法的区别
  4. C# .net 最大HTTP连接数
  5. 关于捕获键盘信息的processDialogkey方法2--具体应用
  6. 【转】JSON简介以及用法代码汇总
  7. EasyUI 使用心得
  8. Redis util
  9. php知识点总结(一)
  10. idea + mybatis generator + maven 插件使用
  11. java IO(四):键盘录入
  12. Spring Security 学习总结
  13. JS事件(三)部分常用事件
  14. Arduino 数字函数总结
  15. 关于“Durian”调查问卷的心得体会
  16. JAVA“动态”为类添加属性
  17. python中安装第三方模块
  18. JAVA-JSP之taglib指令
  19. charles2 重写
  20. 一键安装lnmp(1)

热门文章

  1. 从0开发3D引擎(四):搭建测试环境
  2. 2020年Java程序员应该学习的10大技术
  3. EFCore Database-first深入研究
  4. zm吃包子
  5. .NET Core学习笔记(3)——async/await中的Exception处理
  6. 两个关于 Java 面试的 Github 项目
  7. 【 Tomcat 】tomcat8.0 基本参数调优配置-----(2)
  8. 01-web自动化基础篇
  9. Mac下使用Matplotlib无法显示中文的解决办法
  10. git branch stash