十一之前一直在做“电力领域的词典构建”任务,今天也去聆听了前五支队伍的报告,现结合这段时间来的项目经历,写一下自己的若干心得。

电力领域的词典构建——方法1(非监督学习)

在电力领域词典构建心得1.0中介绍到我们的非监督方法思路主要是:爬取CNKI中关于电力的文献的摘要并提取每一个摘要的关键词,然后利用比赛的原语料中词频的分布筛选排序关键词并得出最后的“电力方面的词典”(此版本前10000词的正确率是0.438)。之后我的优化思路是利用基于比赛语料训练好的词向量进一步筛选之前得出的“电力方面的词典”。但是,最后的结果收效甚微。今天的五支参赛队伍中也有一只队伍使用的方法是“种子词+Word2Vec”,联想到自己方法,我觉得我的非监督方法在想法和方法上有错误。思路上的错误是,在发现“电力方面的词典”的覆盖率只有50%(整个“电力方面的词典”)的情况下,没有积极拓展词典的覆盖率而是采用“Word2Vec”提纯的方法。是我错估了这个方法的效果,因为我做的最好效果是取出前1万词中6%不是电力领域的词,并把后1万种中6%的正确词给提取来放到前一万个中!不得不说这对算法的性能要求很高,确实不是首先的优化方法。同时,我当时只是想尽可能的排除前10000个词中的“非电力词”而没有提升后10000个词中的电力词,这样即使做的再好也只是把前43.8%的词集中到一起而对后6%的词的选拔没有任何帮助!另外在具体的操作过程中,对于前10000个词的筛选,我的种子词是前10000个词本身。可是我的种子词只有43.8%是真正的电力领域的啊!这就是说我的种子词有57%的词是非电力词,43%的词是电力的词而我要用它选出电力词的思路本身就是错的!

基于以上的思路,采用Word2Vec优化的方法出来的结果是不好的!

电力领域的词典构建——方法2(监督学习)

方法2的思路是采用是自动标注数据集加LSTM+crf的方法。其中,我们的语料采用的词典是由方法1得出的。可是不幸的是,我们的词典只覆盖了50%(2万大小)的语料。这样即使我们训练出模型后,我们的结果一定一定会差于43%(前10000词)。但是,我们却没有添加网上的电力词词典直接回标语料(失败!!!)!其次,在使用Bi-LSTM+crf训练语料的时候我们一开始使用的是基于词的标记。这种方法在训练的过程中相对而言没有什么大的问题,但是在标记比赛所给的10000篇语料的时候还是存在很大问题的。主要是分词的错误会减少语料中电力词汇的识别性能且常用分词工具在专业词的切分上效果通常更差!

通过这次比赛感觉,自己在方法和思路上有很多欠缺,希望之后的自己可以越来越好!

最新文章

  1. Asp.Net Core + Dapper + Repository 模式 + TDD 学习笔记
  2. swift 3.0 协议笔记
  3. FIL Dalian Jobs
  4. jQuery Mobile 基础(第四章)
  5. bzoj 1934: [Shoi2007]Vote 善意的投票
  6. 机器学习中的算法-决策树模型组合之随机森林与GBDT
  7. jsonp多次请求报错 not a function的解决方法
  8. 【开源java游戏框架libgdx专题】-13-开发工具-地图的使用
  9. 对象this的引用
  10. 自定义checkbox/radio
  11. mybatis 详解(二)------入门实例(基于XML)
  12. time函数获取时间与本地时间不一致
  13. C#多线程之旅~上车吧?
  14. 网络流24题 P1251 餐巾计划问题 拆点
  15. Shell编程-控制结构 | 基础篇
  16. Xcode Archive打包失败问题
  17. PXE+kickstart无人值守安装CentOS 7
  18. 4月27号开学! 第6期《jmeter实战接口自动化+性能》课程,零基础也能学
  19. 使用WinPcap(SharpPcap)实现ARP抓包以实现设备IP修改功能
  20. Git命令实现本地文件推送到git仓库

热门文章

  1. javaScript中的 this
  2. 设计模式来替代if-else
  3. npm 和 cnpm 区别
  4. 创建一个Django项目
  5. BZOJ 4423: [AMPPZ2013]Bytehattan 平面图转对偶图 + 并查集
  6. 为什么C++中只有指针和引用才能实现多态?
  7. cpp 实现简易String类
  8. Sparrow 开发板化身电脑音量调节器
  9. 关于SSD和YOLO对小目标的思考
  10. 湖南省第十二届省赛:Parenthesis