MonoXiver是北卡罗莱纳州立大学刘贤鹏团队开发的一种利用AI从二维图片中提取三维信息的方法。它只需要一个普通的单目摄像头,就可以构建相机周围可靠的三维地图。这对自主驾驶汽车的环境感知与导航具有重要意义。
由于照片是三维世界的二维表示,它们缺少目标的实际尺寸、与相机的距离等深度信息。这对二维摄像头进行导航是一个严峻的问题。目前,一种常用的手段是结合摄像头与激光雷达,后者通过发射激光束来测量距离。但是这种系统成本高昂,硬件也难以与车身集成。
MonoXiver使用分步方法。首先,利用单目摄像头对图像中的三维几何进行粗略估计。然后,用三维包围框标注像车辆等重要目标。这些框帮助表示场景中对象的各种尺度、长宽比和方向。起初,框的位置基于摄像头的估计。利用这些框作为起点,MonoXiver重新分析框内区域,构建更小的框来捕捉更多细节。
MonoXiver还可以区分框内元素的重叠情况。最后,它校准预测的细节框是否与整体框内的形状、颜色、纹理一致。在大规模图片数据集上的测试表明,该方法可以准确构建三维地图。
研究团队期望这种方法可以改变自动驾驶汽车等AI系统感知和导航三维空间的能力。此外,MonoXiver也具有很强的适应性,可以轻松适配不同的单目摄像头。除自动驾驶外,这种AI方法也可应用于其他领域,如机器人、环境监测、医学成像等。