深度学习+CRF解决NER问题
2024-08-21 08:45:50
参考https://github.com/shiyybua/NER
1、开发环境:python3.5+tensorflow1.5+pycharm
2、从https://github.com/shiyybua/NER load工程NER,由于下载的原始代码是基于python2.7的,首先利用2to3.py工具将rnn.py、utils.py转换为python3.x代码。
3、将工程导入pycharm中,此时直接运行会报'Parent module '' not loaded, cannot perform relative import'错误,此时可以建一个package,将代码文件拷贝到package,并修改import部分,如下:
from package.utils import *
解决问题。
4、准备训练文件
4.1准备词向量文件:利用word2vec训练产生词向量,词向量训练的源文件可直接使用load工程中的source.txt,实验中生成的词向量文件source.vec,格式如下:
可以看到生成的词向量有400维,将source.vec第一行去掉,并修改配置文件config.py的词向量默认维数为400。注意词向量的路径使用原始路径有问题,可以改为D盘根目录:
tf.app.flags.DEFINE_string("word_embedding_file", 'd:/source.vec', "extra word embeddings.")
4.2、准备source_vocab.txt
将源文件source.txt数据处理成一个词一行的格式,注意文件中不能有空格/空行:
4.3、训练
特别注意:每次训练时,当model文件已有训练好的模型,系统会自动加载已有模型,如果是新语料这时会出错,需要要删除旧的model文件夹的文件避免加载已有模型。
最新文章
- NetCore 阿里大于发送短信
- cocos多点触控实效注意事项
- Akka(二) - Future
- codeforces 624B Making a String
- This application failed to start because it could not find or load the Qt platform plugin &;quot;xcb&;quot;.
- poj-2909-哥德巴赫猜想
- POJ1179Polygon(区间dp)
- C# Upload
- git踩过的坑
- sql 2005性能调优
- 个人前端学习路线图与github优秀前端开发者的路线图推荐
- crontab计划执行脚本详解
- VCL 中的 Windows API 函数(4): AdjustWindowRectEx
- spring boot 整合案例
- TFS任务预览
- leetcode Ch3-DFS &; Backtracking I
- set bin 集合
- Struts2+Spring+Hibernate整合开发(Maven多模块搭建)
- iOS真机调试 for Xcode 5
- 0103 最短Hamilton路径【状压DP】
热门文章
- windows下简单的缓冲区溢出
- day26 Python __getattribute__
- ASCII,unicode, utf8 ,big5 ,gb2312,gbk,gb18030等几种常用编码区别(转载)
- Egg入门学习(三)---理解中间件作用
- Generative Adversarial Nets[Vanilla]
- DIV CSS float浮动
- [SHOI2006]color 有色图[群论、组合计数]
- Python全栈开发之路 【第三篇】:Python基础之字符编码和文件操作
- Windows下如何更新 CodeBlocks 中的 MinGW 使其支持新版本 C++
- STL vector用法