LDA和PLSA

看了《LDA数学八卦》和July的博客，里面涉及到好多公式推导。。。感觉好复杂，于是记录一些重点简洁的东西，忽略大批量铺垫，直接回答LDA和PLSA是区别：

在pLSA模型中，我们按照如下的步骤得到“文档-词项”的生成模型（频率派）：

按照概率选择一篇文档
选定文档后，确定文章的主题分布
从主题分布中按照概率选择一个隐含的主题类别
选定后，确定主题下的词分布
从词分布中按照概率选择一个词 ”

下面，咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的（贝叶斯派）：

按照先验概率选择一篇文档
从狄利克雷分布（即Dirichlet分布）中取样生成文档的主题分布，换言之，主题分布由超参数为的Dirichlet分布生成
从主题的多项式分布中取样生成文档第 j 个词的主题
从狄利克雷分布（即Dirichlet分布）中取样生成主题对应的词语分布，换言之，词语分布由参数为的Dirichlet分布生成
从词语的多项式分布中采样最终生成词语 ”

从上面两个过程可以看出，LDA在PLSA的基础上，为主题分布和词分布分别加了两个Dirichlet先验。

　　这是July在介绍LDA中讲到的，这两个Dirichlet先验主要是加在确定某一文档时，PLSA是直接确定其主题分布，而LDA对主题的分布，也是以一定概率生成的；其次PLSA在依据主题确定词分布时，分布概率也是确定的，而LDA的词分布是由参数为的Dirichlet分布生成。即PLSA中，文档d产生主题z的概率，主题z产生单词w的概率都是两个固定的值。而LDA中，主题分布（各个主题在文档中出现的概率分布）和词分布（各个词语在某个主题下出现的概率分布）不再是唯一确定的（而是随机变量），而是有很多种可能。但总体还是服从狄利克雷的先验分布的。

巴特西

LDA和PLSA

最新文章

热门文章