Depth estimation/stereo matching/optical flow @CVPR 2017

Unsupervised Learning of Depth and Ego-Motion from Video

2 - deep learning在计算机视觉各个子领域的应用

Depth Estimation, Normal Estimation (深度、法向量 估计)
estimation问题,如果在有 stereo image pair
的情况下并不困难。但是否能从单张影像估计出 depth 或者 normal 呢?在有大量的 training data 和一些
constraints 下(比如vanishing points, orthogonal surfaces...),也是可行的。 2014年
Rob Fergus 的学生,就把 depth 和 normal estimation 看作一个 regression
问题,然后使用强大的高度非线性 regressor (CNN) 来做 end-to-end 的 training, 也就是从
image 到 depth normal 的 training (参考原文: Depth map prediction from a
single image using a multi-scale deep network)。文中使用了 multi-scale deep
network,coarse scale 能根据整个场景得到全局的depth map,这个 overall depth map
和原始的影像,一起 feed 到 fine scale 的CNN 中。总之,使用了deep architecture
后,depth normal estimation 就是个简单的 regression 问题了,而且数据越多越好。今年的 CVPR,CMU
的教授 Abhinav Gupta 组也做了从单张影像估计 normal 的工作。他们的大致思想一致,只是把 normal estimation
离散化了,变成了一个 classification 问题。同样,文章中使用了两个 deep nets: coarse & fine
(原文:Designing Deep Networks for Surface Normal


