0. 前言

1.针对的问题

  弱监督视频动作定位中,这篇论文之前的方法聚合帧级别的类分数,以产生视频级别的预测并从视频级别的动作中学习。此方法无法完全模拟问题,因为背景帧被迫错误地分类为行动类别,无法准确预测视频级标签。

2.主要贡献

  •引入了一个表示背景的辅助类,它是建模弱监督时间动作定位问题的一个缺失元素。

  •提出了一种不对称的双分支权重共享架构,通过一个过滤模块和对比目标来抑制来自背景帧的激活。

  •BaS-Net在最流行的基准THUMOS'14和ActivityNet上的实验中优于当前最先进的WTAL方法。

3.方法

  引入了一个背景辅助类,具有非对称训练策略的双分支权重共享体系结构,两个分支一个默认背景类为1,因为每个未修剪的视频都包含背景帧,一个默认背景类为0,因为提前在过滤模块中将背景帧给过滤掉了。这使得BaS-Net能够抑制来自背景帧的激活,以提高定位性能。模型流程如下:

  (a)特征提取,将每个输入视频vn分为16帧不重叠的Ln段,即vn={Sn,l}Lnl=1,为了应对视频长度的较大变化,从每个视频中采样了固定数量的T段,然后,将采样的RGB和flow分段输入到预训练的特征提取器中,以分别生成F维的特征向量,然后,将RGB和flow特征连接起来以构建完整的特征xn,t,然后将它们沿着时间维度堆叠以形成长度为T的特征图。

  (b)Base branch,预测片段级类别得分,通过将特征图输入到一维卷积层中来生成CAS,然后通过top-k均值技术聚合片段级得分得到视频级类分数,最后输入softmax得到每个类别的概率。通过一个二进制交叉熵损失函数训练网络。在这一分支中,所有视频的类别标签中的背景类别均设为1。

  (c)抑制分支主要是多了一个过滤模块,前面包含一个过滤模块,通过对背景类使用相反的训练目标进行训练来抑制背景帧。该模块由两个1D卷积层和sigmoid函数组成,过滤模块的输出是前景权重,范围从0到1,来自过滤模块的前景权重在时间维度上与特征图相乘以过滤出背景帧。其余操作与Base分支相同,只是输入特征图不同。在这一分支中,所有视频的类别标签中的背景类别均设为0。

 

最新文章

  1. 前台checkbox复选框提交到后台处理
  2. T-SQL Recipes之生成动态列表数据
  3. GitHUb 代码提交遇到的问题以及解决办法
  4. iptables删除规则
  5. man curl_easy_perform(原创)
  6. android 设置textview跑马灯效果
  7. C#生成注册码
  8. Python学习路程day10
  9. 多媒体(3):基于WindowsAPI的视频捕捉卡操作
  10. Scss sass
  11. 常用的php字符串处理函数
  12. Angular学习(7)- 模板2
  13. Palindrome Partitioning
  14. ListView使用CursorAdapter增加和删除item
  15. XCode 项目配置说明
  16. CCNA实验(3) -- RIP
  17. Uva - 11419 - SAM I AM
  18. OC和JS的交互---JavaScriptCore
  19. cuda事件的使用
  20. iOS·UIKit框架注解 & Foundation

热门文章

  1. reids 启动方法
  2. Java面向对象之封装详解
  3. 《黑马旅游网》综合案例六 BaseServlet 抽取
  4. 【SQL Server】按日期分组产品
  5. parse data from Nacos error
  6. 对于AF、RI、Safety from rep exposure、spec的归纳总结
  7. Java的引用(强软弱虚)
  8. Python学习笔记(四)算术运算符
  9. 工作频率运行在3.0 ~ 4.5 GHz的高效率GaAs HBT MMIC驱动放大器-CBG9326
  10. Delphi 从字符串中提取数字