LDA和PLSA
2024-08-24 21:10:30
看了《LDA数学八卦》和July的博客,里面涉及到好多公式推导。。。感觉好复杂,于是记录一些重点简洁的东西,忽略大批量铺垫,直接回答LDA和PLSA是区别:
在pLSA模型中,我们按照如下的步骤得到“文档-词项”的生成模型(频率派):
- 按照概率选择一篇文档
- 选定文档后,确定文章的主题分布
- 从主题分布中按照概率选择一个隐含的主题类别
- 选定后,确定主题下的词分布
- 从词分布中按照概率选择一个词 ”
下面,咱们对比下本文开头所述的LDA模型中一篇文档生成的方式是怎样的(贝叶斯派):
- 按照先验概率选择一篇文档
- 从狄利克雷分布(即Dirichlet分布)中取样生成文档 的主题分布,换言之,主题分布由超参数为的Dirichlet分布生成
- 从主题的多项式分布中取样生成文档第 j 个词的主题
- 从狄利克雷分布(即Dirichlet分布)中取样生成主题对应的词语分布,换言之,词语分布由参数为的Dirichlet分布生成
- 从词语的多项式分布中采样最终生成词语 ”
从上面两个过程可以看出,LDA在PLSA的基础上,为主题分布和词分布分别加了两个Dirichlet先验。
这是July在介绍LDA中讲到的,这两个Dirichlet先验主要是加在确定某一文档时,PLSA是直接确定其主题分布,而LDA对主题的分布,也是以一定概率生成的;其次PLSA在依据主题确定词分布时,分布概率也是确定的,而LDA的词分布是由参数为的Dirichlet分布生成。即PLSA中,文档d产生主题z的概率,主题z产生单词w的概率都是两个固定的值。而LDA中,主题分布(各个主题在文档中出现的概率分布)和词分布(各个词语在某个主题下出现的概率分布)不再是唯一确定的(而是随机变量),而是有很多种可能。但总体还是服从狄利克雷的先验分布的。
最新文章
- CSS3设置多张背景图片
- HDU 4947 GCD Array 容斥原理+树状数组
- paip.提高效率---集合的存取括号方式 uapi java python php js 的实现比较
- OpenHCI - Data Transfer Types
- 李洪强iOS开发之断点续传1
- 用C++ 自娱自乐
- HDOJ/HDU 2565 放大的X(分段思考~)
- LR报-27727错误解决办法
- linux开关机命令
- 存储过程中拼接sql的示例
- Android显示GIF动画完整示例(二)
- 文件系统与linux相关知识点
- C# 调用动态链接库,给游览器写入Cookie
- 看完轻松年薪30w+
- 【精解】EOS智能合约演练
- PyTorch安装
- go语言基础之字符串遍历
- Gitbook在Windows上安装
- 必须要会的 50 个 React 面试题
- js返回上一页并刷新、返回上一页、自动刷新页面