单目视觉里程计的深度在线校正_误差_Wei

计算机视觉life”，选择“星标”

快速获得最新干货

标题：Deep Online Correction for Monocular Visual Odometry

作者：Jiaxin Zhang, Wei Sui, Xinggang Wang, Wenming Meng, Hongmei Zhu, Qian Zhang

来源：2021 IEEE International Conference on Robotics and Automation (ICRA)

编译：姚潘涛

审核：Zoe，王靖淇

本文转载自泡泡机器人SLAM，文章仅用于学术分享。

摘要

本文提出了一种用于单目视觉里程计的新型深度在线校正 (DOC) 框架。整个pipeline分两个阶段：首先，深度图和初始位姿是从自监督方式训练的卷积神经网络（CNN）获得。其次，通过在推理阶段梯度更新位姿来最小化光度误差，进一步改进了 CNN 预测的位姿。我们提出的方法的好处有两个：1）与在线学习方法不同，DOC 不需要计算 CNN 参数的梯度传播。因此，它在推理阶段节省了更多的计算资源。2）与将 CNN 与传统方法相结合的混合方法不同，DOC 完全依赖于深度学习（DL）框架。尽管没有复杂的后端优化模块，但我们的方法在 KITTI Odometry Seq.09基准测试中取得了出色的性能，相对变换误差 (RTE) = 2.0%，它优于传统的单目 VO 框架，可与混合方法相媲美。

图1 我们的方法在 KITTI Seq. 09 建图结果。3D 点首先通过深度和相机内参的逆投影获得，然后通过相机位姿转换为全局坐标。绿点代表 LiDAR 点，仅供比较。蓝色曲线描述了我们方法的轨迹。

图2 我们的单目 VO 方法的推理流程。(1) 将一对连续的帧送入 DepthCNN 和 Pose-CNN 以获得深度图和姿态初始化。(2) 光度误差图是通过前向和后向翘曲计算的。(3) 相对变换 T i-1i 通过最小化光度误差进行优化。灰色箭头表示误差计算路径。红色箭头指的是梯度反向传播。

图3 在线校正前后光度误差的可视化。子图（a）和（b）分别是原始图像和对应的深度图。深度图中的暗到亮代表从近到远。子图（c）和（d）是在线校正前后的重建图像。子图（e）和（f）是在线校正前后的光度误差。从深到红色代表错误从小到大。请注意，在错误图中，路缘和井盖周围的错误（在错误图中圈出）在在线校正期间已减少。

图4 DOC（两帧）和 DOC+（三帧）框架的插图。蓝色框表示 DOC，它仅最小化两个连续帧的光度误差。橙色框表示 DOC+，它使用来自三帧中的帧对的重投影误差。

图5 可视化。从上到下：扭曲图像、遮挡（黑色）和可解释性（灰色）蒙版的组合、光度误差图。在顶部，我们可以看到在后向扭曲过程中由遮挡产生的扭曲图像中的双交通杆。遮挡遮罩成功计算了发生遮挡的像素区域。结果，在光度误差中未计算遮挡区域。CNN 产生的中间可解释性掩模通常会减少屋顶和植被等高频区域的光度误差。

图6 我们的方法与传统方法和混合方法的比较。在 KITTI Odometry Seq 上进行了比较实验。09（左）和序列。10（右）。(a) 中的图显示了我们的方法和传统方法的结果，而 (b) 中的图显示了我们的方法和混合方法的轨迹。

表1 KITTI Odometry Seq.09 和 Seq.10 的单目视觉里程计比较，采用不同的方法，包括传统方法、基于 DL 的方法和混合方法。RTE、RRE 和 A TE 分别是相对平移误差、相对旋转误差和绝对平移误差的缩写。

表2 在 KITTI Odometry Seq.09 上评估消融结果。Me和Mo分别指的是explainability mask和occlusion mask。“损失”是指在线修正方法中使用的损失。“Frames” = 2 或 3 代表两帧或三帧优化。

表3 EuRoC MAV 数据集上的单目视觉里程计比较。绝对轨迹误差 (ATE) 的 RMSE 用作评估指标。

Abstract

In this work, we propose a novel deep online correction (DOC) framework for monocular visual odometry. The whole pipeline has two stages: First, depth maps and initial poses are obtained from convolutional neural networks (CNNs) trained in self-supervised manners. Second, the poses predicted by CNNs are further improved by minimizing photometric errors via gradient updates of poses during inference phases. The benefits of our proposed method are twofold: 1) Different from online-learning methods, DOC does not need to calculate gradient propagation for parameters of CNNs. Thus, it saves more computation resources during inference phases. 2) Unlike hybrid methods that combine CNNs with traditional methods, DOC fully relies on deep learning (DL) frameworks. Though without complex back-end optimization modules, our method achieves outstanding performance with relative transform error (RTE) = 2.0% on KITTI Odometry benchmark for Seq. 09, which outperforms traditional monocular VO frameworks and is comparable to hybrid methods.

独家重磅课程官网：cvlife.net

1、视觉SLAM基础：刚看完《视觉SLAM十四讲》，下一步该硬扛哪个SLAM框架？

2、VIO灭霸：VIO天花板ORB-SLAM3第2期上线！（单/双目/RGBD+鱼眼+IMU+多地图+闭环）

3、机器人导航运动规划：机器人核心技术运动规划：让机器人想去哪就去哪！

4、详解Cartographer：谷歌开源的激光SLAM算法Cartographer为什么这么牛X？

5、深度学习三维重建总共60讲全部上线！详解深度学习三维重建网络

6、三维视觉基础详解视觉深度估计算法（单/双目/RGB-D+特征匹配+极线矫正+代码实战）

7、 VINS:Mono+Fusion SLAM面试官：看你简历上写精通VINS，麻烦现场手推一下预积分！

8、图像三维重建课程：视觉几何三维重建教程（第2期）：稠密重建，曲面重建，点云融合，纹理贴图

9、系统全面的相机标定课程：单目/鱼眼/双目/阵列相机标定：原理与实战

全国最棒的SLAM、三维视觉学习社区↓

技术交流微信群

投稿、合作也欢迎联系：simiter@126.com

本公众号原创内容版权属计算机视觉life所有；从公开渠道收集、整理及授权转载的非原创文字、图片和音视频资料，版权属原作者。如果侵权，请联系我们，会及时删除。返回搜狐，查看更多

SD科技制造

单目视觉里程计的深度在线校正