多模态数据联合Embedding的方法小结

当模型需要接受多个模态的数据时，往往需要设计合适的方法让他们能进行信息的融合，Joint embedding是一种较为普遍的思路，即将他们映射到同一个向量空间中，再进行融合。

向量拼接、元素级相乘、做out product得到矩阵、求和。缺点是缺乏表达能力
Multimodal Compact Bilinear pooling (MCB)^[1]，首先把两个模态的特征向量独自和未来需要组合的内容共同映射到一个低维空间中，两个低维向量再做out product得到矩阵（作者使用FFT在频域上进行out product以降低计算复杂度，再将结果转换回来）。随后还有Multimodal Low-rank Bilinear pooling (MLB)^[^2]、Multimodal Factorized Bilinear pooling (MFB)^[3]原理都较为类似。
Multimodal Residual Networks (MRN)^[4]受到深度残差结构的启发，利用神经网络去学习联合embedding并在其中加入shortcuts使其两个模态可以互相影响共同学习映射。

[1] Multimodal Compact Bilinear Pooling for Visual Question Answering and Visual Grounding

[2] Hadamard product for low-rank bilinear pooling

[3] Multi-modal factorized bilinear pooling with co-attention learning for visual question answering

[4] Multimodal residual learning for visual qa

巴特西