相关工作:

将R-CNN推广到RGB-D图像,引入一种新的编码方式来捕获图像中像素的地心姿态,并且这种新的编码方式比单纯使用深度通道有了明显的改进。

我们建议在每个像素上用三个通道编码深度图像:水平视差、离地高度、像素局部表面法向量和重力方向的夹角(HHA,horizontal disparity, height above ground, and the angle the pixel`s, local surface normal makes with the inferred gravity direction)。所有通道都线性缩放,将训练数据集上的观测值映射到0-255的范围。

CNN不太可能自动学习直接从深度图像中计算这些属性,特别是当可用数据集非常有限时。我们的假设是,在我们的HHA地心图中和RGB图之间有足够的共同结构,为RGB图设计的网络也可以学习HHA图像的合适表示。例如,视差中的边缘和法向量与重力方向的夹角对应有趣的物体边界(内部或外部边界),类似与RGB中的边界(但可能更干净)。

实验设置:

1、微调卷积神经网络(CNN)用于特征学习

2、训练线性SVMs用于OP(object proposal)分类

1、Finetuning

RCNN基于caffe

在ILSRC 2012数据集上训练

初始学习率0.001,没20k次迭代减少10倍,Nvidia Titan大约需要7个小时

把每一个训练示例标记为具有最大重叠的真实示例的类别,并且这个重叠大于0.5,否则标记为background。所有的微调都是在训练机上完成的。

2、SVM Training

在pool5和fc6或者fc7计算特征,把真实值框内的目标类被称为正例,与真实值实例交集小于0.3的称为反例。

SVM超参数C= 0.001, B = 10, w1 = 2.0

最新文章

  1. 【Tomcat】配置Tomcat
  2. C++ 判断字符串是否全是数字
  3. Blink Without Delay: 不使用 delay() 函数而使 LED 闪烁
  4. 基于Token的WEB后台认证机制
  5. JS虚拟键盘
  6. javascript常用判断写法
  7. 20145213《Java程序设计》实验五Java网络编程及安全
  8. leetcode: Path Sum II 迭代法
  9. WCF入门(8)
  10. hdu 2544 最短路
  11. java:打包
  12. res/raw和assets的 区别
  13. JavaScript constructors, prototypes, and the `new` keyword
  14. 转:MFC创建多线程实例
  15. 什么是PWM、PFM及VFM
  16. 关于js的几道经典题(作用域、原型链等)自己做的
  17. Android事件机制之二:onTouch详解
  18. Labview学习笔记-条件结构的两个问题
  19. jdk8新特性表达式1
  20. 写脚本时出现: Permission denied

热门文章

  1. delphi Firemonkey ListView 使用参考
  2. Liunx cannot remove `xxx': Operation not permitted
  3. FastJson bean序列化属性顺序问题
  4. ios的@property属性和@synthesize属性(转)
  5. spring 控制反转与依赖注入原理-学习笔记
  6. 向值栈放List集合
  7. curl模拟多线程抓取网页(优化)
  8. 1014_C语言的文法
  9. Efficient algorithms for polyploid haplotype phasing 多倍体单体型分型的有效算法
  10. 静态方法调静态属性用self,$this不可以