三维目标检测论文阅读:Deep Continuous Fusion for Multi-Sensor 3D Object Detection
2024-09-01 18:38:28
题目:Deep Continuous Fusion for Multi-Sensor 3D Object Detection
来自:Uber: Ming Liang
Note: 没有代码,主要看思想吧,毕竟是第一篇使用RGB feature maps 融合到BEV特征中;
从以下几个方面开始简述论文
Open Problems
Contributions
Methods
Experiments
My Conclusion
1> Open Problems
- 联合多传感器数据能获得更好的特征表示;
- 数据融合问题: 现有方法是将雷达特征投影到图像特征中,当做一个深度通道来处理,这种方法的局限是需要两步来完成;
- 雷达获取稀疏的特征,相机获取稠密的特征,如何将稠密的图像特征投影到稀疏的雷达特征图中;
2>Contributions
- 首个将图像特征投影到BEV(雷达鸟瞰图)中,构建一个基于雷达的目标检测器;
- 提出Continuous Fusion Layer 用于将多尺度的图像特征融合到雷达特征中;
- 当时具有较高的检测精度和较高的执行效率;
3>Methods
看图说话:
简述流程
camera图像和雷达俯视图分别用ResNet提取不通尺度特征的,将camera图像提取的多尺度特征进行融合,经过本文设计的“连续融合层”以融合到BEV的不通尺度的特征中,学到的特征经个两个固定尺度的anchor,每个尺度两个方向(0,90°)NMS获取最终的3D目标检测。
- 为什么要先融合图像的多尺度特征再融合到不通尺度的BEV特征图中去?
这样做能相当于一个交叉融合,每个送往BEV特征都来自于三个不同尺度的特征,而不像是直接对应尺度融合仅仅来自于单一尺度的图像特征图;
连续融合层
深度连续卷积
连续卷积融合层相当于连续卷积,和传统卷积的差异如下:
训练损失
损失包含两个方面,分别损失和回归损失,和2D目标检测一样,只是boundbox多了个目标的高度和方向,看公式吧,不在赘述;
4>Experiments
数据集说明
Compare with other state-of-the-art methods
Ablation Study on KITTI
TOR4D BEV Object Detection
5>My Conclusion
- 方法角度来看:本文是个很好的思路:通过变换LIDAR数据的不通方向上的投影,来融合多源的数据;
- 实验角度来看:能被检测的目标类别还很少;TOR4D上的精读还比较差,所以具备发挥的空间;
最新文章
- Windows Task Scheduler Fails With Error Code 2147943785
- mysql case when
- Java for LeetCode 160 Intersection of Two Linked Lists
- Hark的数据结构与算法练习之多路归并排序
- IOS-Archiver文件归档(2)
- Unity3D 画线插件 Vectrosity 画一个一直循环的正弦函数曲线
- 转:WebDriver(Selenium2) 判断页面是否刷新的方法
- Asp.net mvc 知多少(十)
- Bootstrap中的datetimepicker用法,只看一眼就全懂了
- C#程序及批处理中确定windows操作系统的方法
- HTTP面试题都在这里
- Python-写文件
- Centos7 设置vim 显示文本不同颜色
- NUC972---Linux驱动开发
- InfluxDB(官方使用说明)
- element ui输入框监听enter事件
- JVM性能调优监控工具jps、jstack、jmap、jhat、jstat, hprof使用详解
- python(13)多线程:线程池,threading
- Ext BoxComponent
- Unity3D中的序列化测试