2013.5.21 - KDD第三十三天

实验室例会，上到一半之后发现今天下午第二节课是Android，上次两节Android都没跟中秋碰头，这次又不能碰头了，然后就赶紧给中秋发了个短信，说我在开会，晚上约个时间再谈。正好也称这一下午加一晚上的时间把那三篇论文温习一遍，然后把CRF、MRF再看看，不过果然还是没于看懂，晚上吃完饭回来打算找学长问，不过学长吃饭去了还没有回来，就自己看那篇综述。

等学
瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目。其实之前对MRF一直存在误解，这是主要障碍，以前一直以为每个节点都代表一种lable
configuration，这样不同的Y之间会有概率关系，而且满足马尔科夫性，不过越想越不对劲。后来师兄告诉我，我才明白，原来整个图才是
Lable
configuration，每一个Y不是向量，是一个Configuration的一个标签，这样不用标签之间存在着相互决定相互影响的关系，比如说对
于NER来说，上一个标签是B_xx，下一个标签一定（或很有可能）就是I_xx或者E_xx，如果上一个状态是I_xx，那么下一个状态一定（或很有可
能）就是I_xx或者E_xx，这样就都说通了。随机场的运行机制跟高中物理中的静电场差不多，顺着场强最大的方向一直走，带电粒子就会获得最大的能量，
对我们来说也就是得到了最大的概率。这个概率一路走来所经过的路径，就是最佳路径，就是我们说的最可能的Label
Configuration。学习的过程就是根据观测数据，用最大似然估计等估计方法来猜测，能让我看到这套观测数据的最可能Label
Configuration是什么样的。

然后我们开始讨论KDD的那个问题，感觉姜还是老的辣，我
自己抠了好几天大脑都没什么突破，结果跟瑞吉师兄一讨论就感觉清澈很多了，而且瑞吉师兄帮助我对于识别atomic
cluster的方法进行了扩展，之前一直都在同一篇paper里面转悠，看怎么能从一篇paper里面识别出co-author的信息来，之前的想法是
如果一个歧义协作者跟其他某一个无歧义协作者的机构相同就认定一定是这个歧意作者写的，不过这个方法很有限，这种恰好的情况数量比较少。然后师兄的这种方
法进行了扩展，用多篇有作者起义的文章进行相互校验。比如当前这篇文章有无歧义作者，那么在其他文章中搜看这个无歧义作者有没有跟其中某个尤其以作者合作
过，如果找到这样的纪录那么就果断认为是这个无歧义作者写的。

最后又为我提出了一个可行度比较高的
方案，就是利用标注扩展的原理，找出文章之间的相似度，然后以作者为标签进行标注。通过上面的方法找出准确率比较高的某篇文章的标注没后通过相似度矩阵进
行反复迭代，最后就会沉淀出来的格局就是结果。不过这样所有文章一起算的话运算会有点大，毕竟作者数量还很多，而且标注向量太稀疏，所以打算首先对每个待
消歧作者的所有待消文章进行标签扩展，如果效果不好的话再想别的办法。

感觉今天很有收获，晚上十一点多才到公寓，然后给中求发短信问他是不是十一点老地方，他说已经睡下了，改天吧。我说恩，好吧。

夜里在自习室继续看那篇综述看到两点多，感觉现在非常清醒。

巴特西

2013.5.21 - KDD第三十三天

最新文章

热门文章