主要观点:基于sliding window(SW)类的方法,如TURN,可以达到很高的AR,但定位不准;基于Group的方法,如TAG,AR有明显的上界,但定位准。所以结合两者的特长,加入Complementary Filtering(互补滤波)模块,实际上就是加一个网络预测TAG能不能搞,不能搞就用SW。

第一阶段:视频被划分为等长的单元,使用两层时序卷积生成unit-level的actionness score,基于这一分数序列,分别使用TAG和滑动窗口生成两组proposals,其中TAG就是分水岭算法,滑动窗口选用几种不同的尺寸,窗口之间有一定重合,具体参数见论文4.2。

第二阶段:互补滤波。通过一个Proposal-level Actionness Trustworthiness Estimator(PATE)模块来评估TAG能否成功。训练时使用gt作为目标,通过TAG出来的proposals与gt之间的iou决定正负样本,将proposals内的unit-level特征池化到固定尺寸,再过两层fc和sigmoid即可。测试时将其作用于每个SW,如果输出的分数低于阈值,则代表这个窗口内TAG大概率失效,该窗口正式成为一个proposal,否则丢弃。如此,便可获得一个正式的proposal集合。

第三阶段:排序和边界调整。TURN也有这一步骤,但它使用均值池化来聚合时序特征,丢弃了temporal ordering信息。本文设计一个Temporal convolutional Adjustment and Ranking(TAR)网络,使用时序卷积来聚合unit-level特征。具体地,在proposal内部,均匀采样nctl个unit(个人称之为内部特征),分别以起始点和终结点为中心各采样nctx个unit(个人称之为上下文特征)。内部特征过两层时序卷积和一层全连接,输出是动作的概率。两个上下文特征也分别通过两层时序卷积和一层全连接,输出时间offset。TAR模块的训练,对于原视频进行密集的滑窗采样作为样本,注意,这里SW的参数设定应该比第一阶段更密集,虽然我还没具体看代码。

最新文章

  1. 大熊君大话NodeJS之开篇------Why NodeJS(将Javascript进行到底)
  2. Linux系统下fd分配的方法
  3. linux环形buff模拟多线程信号量操作
  4. 在VMware中安装RHEL6.2(下)—— RHEL系统安装
  5. CSS3/SVG clip-path路径剪裁遮罩属性简介
  6. dedecms由子目录访问修改为根目录访问
  7. CSS3 transition 属性
  8. 安卓---apk反编译
  9. 修改一个Label上字体的大小(富文本)
  10. IEnumerable & IEnumerator
  11. 【NOI2014】魔法森林
  12. java设计模式——适配器模式 Java源代码
  13. sql多表数据查询
  14. 第一章01:熟悉java,发展历史
  15. docker学习笔记-命令大全
  16. 如何禁止复制电脑文件到U盘、禁止U盘拷贝文件
  17. kettle开源项目部署文档
  18. 【codeforces666E】Forensic Examination 广义后缀自动机+树上倍增+线段树合并
  19. information_schema系列七
  20. Mysql 优化,慢查询

热门文章

  1. Servlet(2):Requset/Response Encoding and Filter
  2. 九大内置对象 and HTTP略微的个人见解
  3. androidstudio的安装与抓log
  4. Django之logging配置
  5. 纹理特征描述之灰度差分统计特征(平均值 对比度 熵) 计算和比较两幅纹理图像的灰度差分统计特征 matlab代码实现
  6. 如何申请阿里云免费SSL证书(可用于https网站)并下载下来
  7. C#_初识之HelloWorld
  8. USACO 1.1 Greedy Gift Givers
  9. 线程的同步控制synchronized和lock的对比和区别
  10. PAT B1037 在霍格沃兹找零钱