论文笔记之:Natural Language Object Retrieval

2017-07-10  16:50:43  

  本文旨在通过给定的文本描述,在图像中去实现物体的定位和识别。大致流程图如下:

  

  此处,作者强调了一点不同之处:

  Natural language object retrieval differs from text-based image retrieval task as it involves spatial information about objects within the scene and global scene context. (自然语言物体的检索 与 基于文本的图像检索任务 是不同的,因为其涉及到:在场景内部的关于物体的空间信息,以及全局的场景信息)。本文通过 recurrent network 来实现 query text, local image descriptor, spatial configurations and global context features,然后输出是:文本和 proposal 之间的相符程度的得分。与此同时,也可以将 visual-linguistic knowledge 从 image caption 领域借鉴到我们的任务当中。

  作者发现:简单的将 text-based image retrieval system 来直接做这个任务,得到的效果并不是非常好,因为自然语言物体检索涉及到 物体的空间信息 以及 场景中全局信息。利用 RNN 作为 scoring function有如下的好处:

  1. 整个模型可以通过 反向传播 来进行end to end 的训练,使得 visual feature extraction 和 text sequence embedding 可以相互影响。实验表明这种方向比 bag of words 效果要好很多。

  2. 可以很简单的利用 大型 image-text datasets 来学习一个 vision-language model 来协助该任务的完成。

  

  但是,这个任务有一个比较大的挑战是:the lack of large scale datasets with annotated object bounding box and description pairs.

  To address this issue, we show that it allows us to transfer visual-linguistic knowledge learned from the former task to the latter one by first pretraining on the image caption domain and then adapting it to the natural language object retrieval domain. 
  这种 pre-training 和 adaptation 的过程不但提升了性能,而且避免了过拟合,特别是当 the object retrieval training dataset 比较小的时候。

  

  本文的网络结构 和 大致示意图 如下所示:

  

  训练所用到的损失函数为:

  


  简单而言,其实就是:

  利用给定的图像,BBOX的位置信息,以及检索的语言。。。

  然后基于此给出一个网络结构的预测,在去比较该结果和给定的语言描述之间的 loss 。。。

  从而完成整个网络的训练。。。。

  

  在测试的时候,就可以将 proposal 替换掉 原始 GT image  patch,然后就可以利用这个语言模型,给各个 proposal 进行打分了。。。

  最终选择一个最佳的 proposal 作为检测的结果。。。

  

最新文章

  1. 如何调试ANDROID下面黑屏问题
  2. VS无法设置断点的解决方案
  3. weblogic端口号修改和内存参数配置
  4. 浅析正则表达式模式匹配的String方法
  5. bug:[NSKeyedUnarchiver initForReadingWithData:]: data is NULL
  6. VS2012未找到与约束ContractName...匹配的导出
  7. 004. 线程间操作无效: 从不是创建控件“textBox1”的线程访问它
  8. SQL Server未找到或无法訪问server问题解决
  9. SGU 0438 The Glorious Karlutka River =) 动态流
  10. FPGA合成编码
  11. AI翻译离无障碍交流有多远
  12. 安卓java.lang.IllegalArgumentException: The observer is null.解决方案
  13. CenOS_命令帮助
  14. linux基本
  15. JS 私有变量
  16. (转) HighCharts 非规律日期 多条曲线的 绘画
  17. 2018-2019-2 20165302 《网络对抗技术》Exp4 恶意代码分析
  18. laravel服务l队列资料整理
  19. [UE4] C++实现Delegate Event实例(例子、example、sample)
  20. jpa 一对一

热门文章

  1. CentOS7 安装 mysql8
  2. Robot Framework 自动化测试--部署篇
  3. Linux CPU使用率含义及原理
  4. json.dumps(),json.loads(),json.dump(),json.load()方法的区别
  5. flask框架----flask基础
  6. word2vec原理(一) CBOW与Skip-Gram模型基础——转载自刘建平Pinard
  7. 使用Ajax出现302 Moved Temporarily
  8. 基于SecureCRT的测试环境的克隆的linux/vi相关命令
  9. jquery的$post方法不发送空数组的解决办法
  10. fjwc2019 D2T1 直径 (构造)