DeepLDA 并不是把LDA模型整合到了Deep Network,而是利用LDA来指导模型的训练。从实验结果来看,使用DeepLDA模型最后投影的特征也是很discriminative 的,但是很遗憾没有看到论文是否验证了topmost 的hidden representation 是否也和softmax指导产生的representation一样的discriminative。

DeepLDA和一般的deep network唯一不同是它的loss function。两者对比如下:

对于LDA,优化的目标是最小化类内方差,同时最大化类间方差。由于LDA是一个有监督的模型,对于多分类的情况如个类,则最终投影的一个子空间的维数只有。多分类情况LDA优化的目标公式为,

其中A就是投影矩阵。是between scatter matrix,可以理解为类中心间的方差;而定义为within scatter matrix,可以理解为类内协方差的和。它们的计算公式如下:

这里,我们已经假设所有的样本都是去中心化的了。最后问题变成了一个泛化的特征方程求解的问题,矩阵A对应着相应的特征向量。

事实上,特征向量指示着投影最大方差的方向,特征值则是对特征向量重要程度的一个量化。而论文的一个insight就是,希望可以指导网络生成topmost的representation能够在各个方向都产生较大的特征值,即不希望投影的方向在某个方向更方差会更大,因为这代表了信息量的多少。论文提出一种直接把特征值作为loss function的方法,因为训练的时候,网络倾向于优化最大的特征值,产生一个trivial的结果,即使得大的特征值会倾向于更大而牺牲其他小的特征值。因此论文定义loss function在小的特征值上:

特征值的求解是建立在topmost的representation的基础上的。模型的训练使用mini-batch的随机梯度下降法,而特征值可以直接对representation 进行求导:

论文的appendix可以看到完整的求导过程。

最后,论文的实验室通过对project后的特征进行分类,所以比较的是分类的精度,以及test error。而且,实验的结果还挺competitive的。

最新文章

  1. 24、ASP.NET MVC入门到精通——数据库仓储
  2. iOS阶段学习第15天笔记(NSArray与NSMutableArray 数组)
  3. spring源码学习之路---IOC容器初始化要义之bean定义载入(五)
  4. [windows]禁止指定用户使用远程桌面服务登录
  5. phpcms-v9中建立wap手机站点
  6. 九度OJ 1447 最短路 1008 最短路径问题
  7. 结构体dict_field_t
  8. CSU 1511 残缺的棋盘 第十届湖南省赛题
  9. 边缘检测之Sobel检测算子
  10. 在TC(Total Commander)中添加启动Cygwin快捷键的方法
  11. Saving HDU (贪心)
  12. mysql分享记录
  13. (转).net下Selenium2使用方法总结
  14. bzoj1113
  15. vue 解决无法设置滚动位置的问题
  16. 牛客练习赛43 Tachibana Kanade Loves Game (简单容斥)
  17. Confluence 6 访问你的宏正文(body)
  18. JS常用功能
  19. Linux上怎么快速删除一个目录
  20. Vim 我用的python相关插件

热门文章

  1. iTOP-6818开发板-Android4.4系统下RFID射频模块测试例程
  2. jQuery 超过字符截取部分用星号表示
  3. snowflake机器标识自动绑定
  4. 如何手写一款KOA的中间件来实现断点续传
  5. 一道超级复杂的js题目
  6. Android Studio + Genymotion模拟器安装与配置
  7. Win2008 Server搭建流媒体服务(在线看电影)
  8. SQL-Redis使用详细教程
  9. HDU 6446 Tree and Permutation(赛后补题)
  10. I2C详细介绍