看了《LDA数学八卦》和July的博客,里面涉及到好多公式推导。。。感觉好复杂,于是记录一些重点简洁的东西,忽略大批量铺垫,直接回答LDA和PLSA是区别:

在pLSA模型中,我们按照如下的步骤得到“文档-词项”的生成模型(频率派):

  1. 按照概率选择一篇文档
  2. 选定文档后,确定文章的主题分布
  3. 从主题分布中按照概率选择一个隐含的主题类别
  4. 选定后,确定主题下的词分布
  5. 从词分布中按照概率选择一个词 

下面,咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的(贝叶斯派):

  1. 按照先验概率选择一篇文档
  2. 从狄利克雷分布(即Dirichlet分布)中取样生成文档 的主题分布,换言之,主题分布由超参数为的Dirichlet分布生成
  3. 从主题的多项式分布中取样生成文档第 j 个词的主题
  4. 从狄利克雷分布(即Dirichlet分布)中取样生成主题对应的词语分布,换言之,词语分布由参数为的Dirichlet分布生成
  5. 从词语的多项式分布中采样最终生成词语 

    从上面两个过程可以看出,LDA在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验。

  这是July在介绍LDA中讲到的,这两个Dirichlet先验主要是加在确定某一文档时,PLSA是直接确定其主题分布,而LDA对主题的分布,也是以一定概率生成的;其次PLSA在依据主题确定词分布时,分布概率也是确定的,而LDA的词分布是由参数为的Dirichlet分布生成。即PLSA中,文档d产生主题z的概率,主题z产生单词w的概率都是两个固定的值。而LDA中,主题分布(各个主题在文档中出现的概率分布)和词分布(各个词语在某个主题下出现的概率分布)不再是唯一确定的(而是随机变量),而是有很多种可能。但总体还是服从狄利克雷的先验分布的。

最新文章

  1. CSS3设置多张背景图片
  2. HDU 4947 GCD Array 容斥原理+树状数组
  3. paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较
  4. OpenHCI - Data Transfer Types
  5. 李洪强iOS开发之断点续传1
  6. 用C++ 自娱自乐
  7. HDOJ/HDU 2565 放大的X(分段思考~)
  8. LR报-27727错误解决办法
  9. linux开关机命令
  10. 存储过程中拼接sql的示例
  11. Android显示GIF动画完整示例(二)
  12. 文件系统与linux相关知识点
  13. C# 调用动态链接库,给游览器写入Cookie
  14. 看完轻松年薪30w+
  15. 【精解】EOS智能合约演练
  16. PyTorch安装
  17. go语言基础之字符串遍历
  18. Gitbook在Windows上安装
  19. 必须要会的 50 个 React 面试题
  20. js返回上一页并刷新、返回上一页、自动刷新页面

热门文章

  1. 30分钟groovy快速入门并掌握(ubuntu 14.04+IntelliJ 13)
  2. jqueryValidation使用
  3. caffe net 可视化工具
  4. win10下搭建QTP测试环境
  5. 关于RPC
  6. Java File创建新目录和文件
  7. 2016 12 21 的project 未注释版
  8. 站内信对话列表sql语句
  9. HTML流动布局各种宽度自适应
  10. 无法打开注册表项 unknown 没有足够的权限访问