Learning Rich Features from RGB-D Images for Object Detection and Segmentation论文笔记
相关工作:
将R-CNN推广到RGB-D图像,引入一种新的编码方式来捕获图像中像素的地心姿态,并且这种新的编码方式比单纯使用深度通道有了明显的改进。
我们建议在每个像素上用三个通道编码深度图像:水平视差、离地高度、像素局部表面法向量和重力方向的夹角(HHA,horizontal disparity, height above ground, and the angle the pixel`s, local surface normal makes with the inferred gravity direction)。所有通道都线性缩放,将训练数据集上的观测值映射到0-255的范围。
CNN不太可能自动学习直接从深度图像中计算这些属性,特别是当可用数据集非常有限时。我们的假设是,在我们的HHA地心图中和RGB图之间有足够的共同结构,为RGB图设计的网络也可以学习HHA图像的合适表示。例如,视差中的边缘和法向量与重力方向的夹角对应有趣的物体边界(内部或外部边界),类似与RGB中的边界(但可能更干净)。
实验设置:
1、微调卷积神经网络(CNN)用于特征学习
2、训练线性SVMs用于OP(object proposal)分类
1、Finetuning
RCNN基于caffe
在ILSRC 2012数据集上训练
初始学习率0.001,没20k次迭代减少10倍,Nvidia Titan大约需要7个小时
把每一个训练示例标记为具有最大重叠的真实示例的类别,并且这个重叠大于0.5,否则标记为background。所有的微调都是在训练机上完成的。
2、SVM Training
在pool5和fc6或者fc7计算特征,把真实值框内的目标类被称为正例,与真实值实例交集小于0.3的称为反例。
SVM超参数C= 0.001, B = 10, w1 = 2.0
最新文章
- 【Tomcat】配置Tomcat
- C++ 判断字符串是否全是数字
- Blink Without Delay: 不使用 delay() 函数而使 LED 闪烁
- 基于Token的WEB后台认证机制
- JS虚拟键盘
- javascript常用判断写法
- 20145213《Java程序设计》实验五Java网络编程及安全
- leetcode: Path Sum II 迭代法
- WCF入门(8)
- hdu 2544 最短路
- java:打包
- res/raw和assets的 区别
- JavaScript constructors, prototypes, and the `new` keyword
- 转:MFC创建多线程实例
- 什么是PWM、PFM及VFM
- 关于js的几道经典题(作用域、原型链等)自己做的
- Android事件机制之二:onTouch详解
- Labview学习笔记-条件结构的两个问题
- jdk8新特性表达式1
- 写脚本时出现: Permission denied
热门文章
- delphi Firemonkey ListView 使用参考
- Liunx cannot remove `xxx': Operation not permitted
- FastJson bean序列化属性顺序问题
- ios的@property属性和@synthesize属性(转)
- spring 控制反转与依赖注入原理-学习笔记
- 向值栈放List集合
- curl模拟多线程抓取网页(优化)
- 1014_C语言的文法
- Efficient algorithms for polyploid haplotype phasing 多倍体单体型分型的有效算法
- 静态方法调静态属性用self,$this不可以