LDA解决的问题
2024-08-29 04:44:21
人类是怎么生成文档的呢?LDA的这三位作者在原始论文中给了一个简单的例子。比如假设事先给定了这几个主题:Arts、Budgets、Children、Education,然后通过学习训练,获取每个主题Topic对应的词语。如下图所示:
然后以一定的概率选取上述某个主题,再以一定的概率选取那个主题下的某个单词,不断的重复这两步,最终生成如下图所示的一篇文章(其中不同颜色的词语分别对应上图中不同主题下的词):
而当我们看到一篇文章后,往往喜欢推测这篇文章是如何生成的,我们可能会认为作者先确定这篇文章的几个主题,然后围绕这几个主题遣词造句,表达成文。
LDA就是要干这事:根据给定的一篇文档,推测其主题分布。
通俗来说,可以假定认为人类是根据上述文档生成过程写成了各种各样的文章,现在某小撮人想让计算机利用LDA干一件事:你计算机给我推测分析网络上各篇文章分别都写了些啥主题,且各篇文章中各个主题出现的概率大小(主题分布)是啥。
然,就是这么一个看似普通的LDA,一度吓退了不少想深入探究其内部原理的初学者。难在哪呢,难就难在LDA内部涉及到的数学知识点太多了。
在LDA模型中,一篇文档生成的方式如下:
- 从狄利克雷分布中取样生成文档 i 的主题分布
- 从主题的多项式分布中取样生成文档i第 j 个词的主题
- 从狄利克雷分布中取样生成主题对应的词语分布
- 从词语的多项式分布中采样最终生成词语
其中,类似Beta分布是二项式分布的共轭先验概率分布,而狄利克雷分布(Dirichlet分布)是多项式分布的共轭先验概率分布。
此外,LDA的图模型结构如下图所示:
最新文章
- 移植eac3音频库
- 简单理解js的this
- iOS开发:自定义控件实现手势解锁
- caffe 安装资料整理
- IP地址框
- ASP.NET 5 Beta7发布
- 初定为EGame
- 关于java中根据身份证求生日和年龄的问题
- PHP学习之-1.2 认识PHP脚本标识
- UNIX基础--Shells
- 网络获取的XML的Pull解析
- 说说JSON和JSONP,浅析JSONP解决AJAX跨域问题
- MongoDB常用配置项目
- echarts堆叠图添加总量
- 跟我一步一步写出MongoDB Web 可视化工具(二)
- css新增伪类
- JavaScript:改变 HTML 图像
- mysql+mycat压力测试一例【转】
- 将一组数组向右移动k位,末尾的要转置移动到数组开始,其中n为数组大小,0<;k<;n
- SSAS 笔记
热门文章
- Redis学习笔记(三)-数据类型之string类型
- SLAM: Orb_SLAM中的ORB特征
- OpenCV实现灰度直方图和直方图拉伸
- 读书笔记「Python编程:从入门到实践」_11.测试函数
- mysql 5.6 中 explicit_defaults_for_timestamp参数
- Visual Studio 2015 开发 Linux 和树莓派 程序的 C++环境
- Python 字符串常用方法 day2
- 360 基于 Prometheus的在线服务监控实践
- html第三节课
- swift-教你如何实现导航上的UISearchController动画效果。