【机器学习】主题模型（二）：pLSA和LDA

-----pLSA概率潜在语义分析、LDA潜在狄瑞雷克模型

一、pLSA（概率潜在语义分析）

　　pLSA: -------有过拟合问题，就是求D, Z, W

　　pLSA由LSA发展过来，而早期LSA的实现主要是通过SVD分解。pLSA的模型图如下：

公式中的意义如下：

　　具体可以参考2010龙星计划：机器学习中对应的主题模型那一讲

*****************************************************************************************************************

在论文《GoogleNews Personalization Scalable Online CF》一文中提级针对用户聚类，利用相似用户性信息计算喜欢的news。其中包含min-hash以及plsi，plsi是model-based 推荐算法，属于topic(aspect) model，其在NLP领域中用途很大。

引入：

在文本挖掘时，计算文档相似性是很基础的操作，通常，对文本进行分词，构建VSM，通过jaccard或者cosin计算距离或者相似性，这是基于corpus的思路，仅仅考虑词组，并未考虑文本的语义信息。针对下面情况，基于cropus很难处理：

*如果时间回到2006年，马云和杨致远的手还会握在一起吗

*阿里巴巴集团和雅虎就股权回购一事签署了最终协议

如果采用基于corpus的jaccard距离等算法，那么这两个文本的完全不相关，但是事实上，马云和阿里巴巴集团，杨致远和雅虎有着密切的联系，从语义上看，两者都和“阿里巴巴"有关系。

此外，另一个case：

*富士苹果真好，赶快买

*苹果四代真好，赶快买

从corpus上来看，两者非常相似，但是事实上，2个句子从语义上来讲，没有任何关系，一个是”水果“另一个是”手机"。

通过上面的例子，差不多也看出来topic model是什么以及解决什么问题。

概念：

topic model是针对文本隐含主题的建模方法，针对第一个case，马云对应的主题是阿里巴巴，阿里巴巴集团也隐含阿里巴巴主题，这样两个文本的主题匹配上，认为他们是相关的，针对第二个，分别针对水果以及手机主题，我们认为他们是不相关的。

究竟什么是主题？[接下来参考baidu搜索研发部官方博客中对语义主题的定义]主题就是一个概念、一个方面。它表现为一系列相关的词，能够代表这个主题。比如如果是”阿里巴巴“主题，那么”马云“”电子商务“等词会很高的频率出现，而设计到”腾讯“主题，那么“马化腾”“游戏”“QQ”会以较高的频率出现。如果用数学来描述一下的话，主题就是词汇表上词语的条件概率分布，与主题密切相关的词，条件概率p(w|z)越大。主题就像一个桶，装了出现频率很高的词语，这些词语和主题有很强的相关性，或者说这些词语定义了这个主题。同时，一个词语，可能来自于这个桶，也可能来自那个桶，比如“电子商务”可以来自“阿里巴巴”主题，也可以来自“京东“主题，所以一段文字往往包含多个主题，也就是说，一段文字不只有一个主题。

上面介绍了主题的概念，我们最为关心的是如何得到这些主题？这就是topic model要解决的问题。

define： d表示文档，w表示词语，z表示隐含的主题。