GMM参考这篇文章:Link

简单地说,k-means 的结果是每个数据点被 assign 到其中某一个 cluster 了,而 GMM 则给出这些数据点被 assign 到每个 cluster 的概率,又称作 soft assignment 。

通常单个点的概率都很小,许多很小的数字相乘起来在计算机里很容易造成浮点数下溢,因此我们通常会对其取对数,把乘积变成加和 ,得到 log-likelihood function 。

因此也有和 K-means 同样的问题──并不能保证总是能取到全局最优,如果运气比较差,取到不好的初始值,就有可能得到很差的结果。

对于 K-means 的情况,我们通常是重复一定次数然后取最好的结果,不过 GMM 每一次迭代的计算量比 K-means 要大许多,一个更流行的做法是先用 K-means (已经重复并取最优值了)得到一个粗略的结果,然后将其作为初值(只要将 K-means 所得的 centroids 传入 gmm 函数即可),再用 GMM 进行细致迭代。

K-medoids参考这篇文章:Link

k-means 和 k-medoids 之间的差异就类似于一个数据样本的均值 (mean) 和中位数 (median) 之间的差异:前者的取值范围可以是连续空间中的任意值,而后者只能在给样本给定的那些点里面选。

一个最直接的理由就是 k-means 对数据的要求太高了,它使用欧氏距离描述数据点之间的差异 (dissimilarity) ,从而可以直接通过求均值来计算中心点。这要求数据点处在一个欧氏空间之中。

然而并不是所有的数据都能满足这样的要求,对于数值类型的特征,比如身高,可以很自然地用这样的方式来处理,但是类别 (categorical) 类型的特征就不行了。举一个简单的例子,如果我现在要对犬进行聚类,并且希望直接在所有犬组成的空间中进行,k-means 就无能为力了,因为欧氏距离  在这里不能用了:一只 Samoyed 减去一只 Rough Collie 然后在平方一下?天知道那是什么!再加上一只 German Shepherd Dog 然后求一下平均值?根本没法算,k-means 在这里寸步难行!

最常见的方式是构造一个 dissimilarity matrix  来代表 ,其中的元素  表示第  只狗和第  只狗之间的差异程度,例如,两只 Samoyed 之间的差异可以设为 0 ,一只 German Shepherd Dog 和一只 Rough Collie 之间的差异是 0.7,和一只 Miniature Schnauzer 之间的差异是 1 ,等等。

除此之外,由于中心点是在已有的数据点里面选取的,因此相对于 k-means 来说,不容易受到那些由于误差之类的原因产生的 Outlier 的影响,更加 robust 一些。

就会发现,从 k-means 变到 k-medoids ,时间复杂度陡然增加了许多:在 k-means 中只要求一个平均值  即可,而在 k-medoids 中则需要枚举每个点,并求出它到所有其他点的距离之和,复杂度为  。

同样也可能陷入局部最优:

然后作者用了一个文本分类来结束文章。里面还提到了一个 N-Gram:

在 N-gram-based text categorization 这篇 paper 中描述了一种计算由不同语言写成的文档的相似度的方法。一个(以字符为单位的) N-gram 就相当于长度为 N 的一系列连续子串。例如,由 hello 产生的 3-gram 为:hel、ell 和 llo ,有时候还会在划分 N-gram 之前在开头和末尾加上空格(这里用下划线表示):_he、hel、ell、llo、lo_ 和 o__ 。按照 Zipf’s law :

The nth most common word in a human language text occurs with a frequency inversely proportional to n.

这里我们用 N-gram 来代替 word 。这样,我们从一个文档中可以得到一个 N-gram 的频率分布,按照频率排序一下,只保留频率最高的前 k 个(比如,300)N-gram,我们把叫做一个“Profile”。正常情况下,某一种语言(至少是西方国家的那些类英语的语言)写成的文档,不论主题或长短,通常得出来的 Profile 都差不多,亦即按照出现的频率排序所得到的各个 N-gram 的序号不会变化太大。这是非常好的一个性质:通常我们只要各个语言选取一篇(比较正常的,也不需要很长)文档构建出一个 Profile ,在拿到一篇未知文档的时候,只要和各个 Profile 比较一下,差异最小的那个 Profile 所对应的语言就可以认定是这篇未知文档的语言了——准确率很高,更可贵的是,所需要的训练数据非常少而且容易获得,训练出来的模型也是非常小的。

最新文章

  1. 极路由2(极贰)在OpenWrt下定制自己的ss服务
  2. Leetcode Palindrome Linked List
  3. mysql实战之 批量update
  4. 编译c
  5. [ruby on rails] 跟我学之(4)路由映射
  6. bootstrap-响应式图片、辅助类样式
  7. VS2013 当前不会命中断点还未为文档加载任何符号
  8. SQL Server内存性能分析
  9. wcf中netTcpBinding的元素构成
  10. @Index用法——javax.persistence.Index
  11. VS2010 IE10 调试时报“未能将脚本调试器附加到计算机”,已经附加了一个进程
  12. 在C++中反射调用.NET(三)
  13. apache编译安装参数说明
  14. 利用kibana插件对Elasticsearch进行映射
  15. IO模型--阻塞IO,非阻塞IO,IO多路复用,异步IO
  16. 一 Struts框架(上)
  17. JAVA 面向对象中的多态
  18. 尚学堂java答案解析 第二章
  19. day 31 udp 协议SOCK_DGRAM
  20. Error:Program type already present: android.arch.lifecycle.LiveData

热门文章

  1. 机房工程-在线式、后备式UPS选择(转载)
  2. hashmap的put方法源码分析
  3. 【UML】UML世界的构成
  4. Android Cocos2dx引擎 prv.ccz/plist/so等优化缓存文件,手把手ida教你逆向project反编译apk库等文件
  5. Fragment状态保存
  6. Codeforces Round #272 (Div. 2) 题解
  7. 似然函数(likelihood function)
  8. 移动端H5页面编辑器开发实战--原理结构篇
  9. APNs推送
  10. java实现sql批量插入参数