多模态数据联合Embedding的方法小结
2024-08-30 09:41:32
当模型需要接受多个模态的数据时,往往需要设计合适的方法让他们能进行信息的融合,Joint embedding是一种较为普遍的思路,即将他们映射到同一个向量空间中,再进行融合。
- 向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
- Multimodal Compact Bilinear pooling (MCB)[1],首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中,两个低维向量再做out product得到矩阵(作者使用FFT在频域上进行out product以降低计算复杂度,再将结果转换回来)。随后还有Multimodal Low-rank Bilinear pooling (MLB)[2]、Multimodal Factorized Bilinear pooling (MFB)[3]原理都较为类似。
- Multimodal Residual Networks (MRN)[4]受到深度残差结构的启发,利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。
[1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding
[2] Hadamard product for low-rank bilinear pooling
[3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering
[4] Multimodal residual learning for visual qa
最新文章
- 如何在Android中实现全屏,去掉标题栏效果
- [模板]tarjan求强连通分量
- Jackson如何使JSON输出变得优雅?
- HDU5800 To My Girlfriend 背包计数dp
- Angular与React的一些看法
- 211. Add and Search Word - Data structure design
- APUE(3)——文件I/O
- CODEVS 1073 家族
- uva 10012
- Nginx设置alias实现虚拟目录 alias与root的用法区别
- PHP链接Redis
- 【Android Studio安装部署系列】三十三、windows系统中通过SourceTree使用git
- focus()无效问题
- 【Tomcat】Unrecognized Windows Sockets error: 10106: Socket creation failed
- 032 HDFS中高可用性HA的讲解
- [转帖]kubeadm 实现细节
- Codeforces D - The Child and Zoo
- Jmeter界面总是有warning提示
- PoPo数据可视化周刊第2期
- px、em、pt之间的区别与互相转换