LDA 中文名叫 隐含狄利克雷分布

有一个讲的数学八卦的pdf,如下:

http://pan.baidu.com/s/1bnX6Pgb

Latent Dirichlet Allocation(LDA)模型是近年来提出的一种具有文本主题表示能力的非监督学习模型。

关键在于:将文档看做是一组主题的混合,词有分配到每个主题的概率。

Probabilistic latent semantic analysis(PLSA) LDA可以看成是服 从贝叶斯分布的PLSA

这篇文章入门比较好:http://blog.csdn.net/huagong_adu/article/details/7937616

LDA是一种典型的词袋模型,即它认为一篇文档是由一组词构成的一个集合,词与词之间没有顺序以及先后的关系。一篇文档可以包含多个主题,文档中每一个词都由其中的一个主题生成。

使用吉布斯采样估计LDA参数

在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的Gibbs Sampling,具体过程如下:

  • 首先对所有文档中的所有词遍历一遍,为其都随机分配一个主题,即zm,n=k~Mult(1/K),其中m表示第m篇文档,n表示文档中的第n个词,k表示主题,K表示主题的总数,之后将对应的n(k)m+1, nm+1, n(t)k+1, nk+1, 他们分别表示在m文档中k主题出现的次数,m文档中主题数量的和,k主题对应的t词的次数,k主题对应的总词数。
  • 之后对下述操作进行重复迭代。
  • 对所有文档中的所有词进行遍历,假如当前文档m的词t对应主题为k,则n(k)m-1, nm-1, n(t)k-1, nk-1, 即先拿出当前词,之后根据LDA中topic sample的概率分布sample出新的主题,在对应的n(k)m, nm, n(t)k, nk上分别+1。

  • 迭代完成后输出主题-词参数矩阵φ和文档-主题矩阵θ

未完待续

最新文章

  1. 学习笔记 UpdateXml() MYSQL显错注入
  2. 使用Source Safe for SQL Server解决数据库版本管理问题
  3. js Date 时间格式化的扩展
  4. c语言字符集
  5. c#中操作word文档-一、模板方式写入
  6. linq 分类
  7. Codeforces Round #320 (Div. 1) [Bayan Thanks-Round] C. Weakness and Poorness 三分 dp
  8. 程序员提高工作效率的15个技巧【Facebook】
  9. jquery easy ui 学习 (4) window 打开之后 限制操纵后面元素属性
  10. Google 搜索的基本语法
  11. js拾遗:appendChild 添加移动节点
  12. JAVA面试题集
  13. 基于STM32的USB枚举过程学习笔记(转)
  14. 转载 (三)surging 微服务框架使用系列之我的第一个服务(审计日志)
  15. SQL常用语法大全
  16. 用C++调用tensorflow在python下训练好的模型(centos7)
  17. python各种推导式
  18. **PHP二维数组遍历时同时赋值
  19. 吴裕雄 python神经网络 水果图片识别(1)
  20. 实验三 敏捷开发与XP实践 实验报告 20135232王玥

热门文章

  1. zhihu spark集群,书籍,论文
  2. 【转】高通平台android 环境配置编译及开发经验总结
  3. 在Activity中响应ListView内部按钮的点击事件的两种方法!!!
  4. 2014.8.3情人节欢乐赛【Benny的农场】
  5. bzoj1630 [Usaco2007 Demo]Ant Counting
  6. Best Time to Buy and Sell Stock I II III
  7. 百度地图LV1.5实践项目开发工具类bmap.util.jsV1.1
  8. HDU1506(单调栈或者DP) 分类: 数据结构 2015-07-07 23:23 2人阅读 评论(0) 收藏
  9. linux虚拟主机管理系统wdcp系列教程之三
  10. HEVC测试序列(百度云网盘分享)