当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合。

  • 向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
  • Multimodal Compact Bilinear pooling (MCB)[1],首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中,两个低维向量再做out product得到矩阵(作者使用FFT在频域上进行out product以降低计算复杂度,再将结果转换回来)。随后还有Multimodal Low-rank Bilinear pooling (MLB)[2]、Multimodal Factorized Bilinear pooling (MFB)[3]原理都较为类似。
  • Multimodal Residual Networks (MRN)[4]受到深度残差结构的启发,利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。

[1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

[2] Hadamard product for low-rank bilinear pooling

[3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering

[4] Multimodal residual learning for visual qa

最新文章

  1. 如何在Android中实现全屏,去掉标题栏效果
  2. [模板]tarjan求强连通分量
  3. Jackson如何使JSON输出变得优雅?
  4. HDU5800 To My Girlfriend 背包计数dp
  5. Angular与React的一些看法
  6. 211. Add and Search Word - Data structure design
  7. APUE(3)——文件I/O
  8. CODEVS 1073 家族
  9. uva 10012
  10. Nginx设置alias实现虚拟目录 alias与root的用法区别
  11. PHP链接Redis
  12. 【Android Studio安装部署系列】三十三、windows系统中通过SourceTree使用git
  13. focus()无效问题
  14. 【Tomcat】Unrecognized Windows Sockets error: 10106: Socket creation failed
  15. 032 HDFS中高可用性HA的讲解
  16. [转帖]kubeadm 实现细节
  17. Codeforces D - The Child and Zoo
  18. Jmeter界面总是有warning提示
  19. PoPo数据可视化周刊第2期
  20. px、em、pt之间的区别与互相转换

热门文章

  1. c#的文本格式化形式展示
  2. Reids Lua 模糊查询所有key 及 相对应的集合总数
  3. tensorflow学习笔记——使用TensorFlow操作MNIST数据(1)
  4. Weblogic-SSRF漏洞复现
  5. SpringBoot与Swagger整合
  6. python 提取整个 HTML 节点
  7. laravel npm run dev 错误 npm run dev error [npm ERR! code ELIFECYCLE]
  8. v-model绑定一个对象,组件内部分别负责不同字段的场景实现
  9. strace命令 系统调用
  10. Scrum 冲刺第二篇