旷视研究院获 CVPR 2023 自动驾驶国际挑战赛 OpenLane Topology 赛道冠军

news/2024/7/5 6:28:32

近日,为期三个月的 CVPR 2023 自动驾驶国际挑战赛比赛结果揭晓。旷视研究院在OpenLane Topology 赛道中击败 30 余支国内外队伍,夺得冠军。

自动驾驶技术已经渗透到人们的日常生活中,但是传统的感知方法仍不能满足大家对 L5 级自动驾驶的追逐。CVPR 2023 自动驾驶国际挑战赛将自动驾驶技术分为对背景场景的理解、对前景物体的感知和对未来运动的规划三方面,并举办了四个不同赛道的竞赛,希望选手们通过深入探讨自动驾驶感知决策系统面临的任务和挑战,提升自动驾驶的性能表现。

e8d909daf2028546ca609def26e16a51.png

图片来源:Challenge at CVPR 2023 Autonomous Driving Workshop | OpenDriveLab

OpenLane Topology赛道赛题介绍

为了更好的实现自动驾驶场景理解,现有场景感知任务从车道线分割、检测发展到车道中心线检测,但是车道线和车道线之间、车道线和交通标志之间的逻辑关系仍然没有得到合理的建模。OpenLane Topology 比赛[1]要求以车道中心线取代以往数据集中的车道边缘线,结合车道间的拓扑关系,直接得到车辆行驶的轨迹。

此外,本次比赛用到的数据集——OpenLane-Huawei 数据集首次对交通标识和其对车道的对应关系进行了标注,使每条车道都拥有实时的交通属性,来指引车辆在当前车道上对未来的自车行为有合理的倾向。本次比赛以给定环视相机图片作为输入,参赛者需要同时给出车道中线和交通元素的感知结果及拓扑关系的认知结果。主办方将根据各参赛队伍提交算法的 OLS(感知结果和拓扑关系预测 mAP 的平均)进行排名。

旷视夺冠算法介绍

拓扑关系的预测依赖于车道中心线和交通元素的感知结果,因此对于车道中心线和交通元素的感知非常重要,我们分别采用了不同的模型来完成这两个感知任务。

对于车道中心线检测任务来说,不同于以往的 3D 车道线检测任务,3D 车道中心线在图像中往往没有明显的几何特征。3D 车道中心线的检测往往需要根据周边的 3D 车道线的位置关系进行判断,因此 3D 车道中心线的检测需要较大的感受野。我们对比了现有的 3D 车道线检测框架,最终选择了旷视自研的 PETRv2 框架[2]作为 baseline。在 PETRv2 中,lane queries 会通过全局注意力机制和图像特征进行交互,具有全局的感受野。这种交互方式可以兼顾局部的细节特征和整体的结构特征,有利于对 3D 车道中心线的预测。

7b24b10e6a316fc0e20af49c8e8318d0.png

对于交通元素的检测任务,考虑到以往比赛的经验,我们选取了 YOLO 系列最新的模型 YOLOv8 模型[3]作为我们的 baseline。相比其他 2D 检测方法,它拥有更快的速度,更准确的性能。

c9bb95463e9b668beff3bbcd9a0c89d9.png

结合 YOLOv8 和 PETRv2,我们进一步搭建了一个多阶段的网络框架,并将其拓展到拓扑关系的预测中。首先,我们使用一个预先训练好的 YOLOv8 模型,通过和前向视角图像交互来进行交通元素的检测任务,并生成对应的交通元素特征。PETRv2 模型通过和多视角图像特征交互来生成 3D 车道中心线检测结果和对应的车道中心线特征。这样设计是为了尽最大限度保证 2D 检测的性能,同时实现交通元素特征与车道中心线特征的特征对齐。基于两个任务的特征,我们将对应的特征进行拼接,然后分别使用了两组多层感知机预测对应的拓扑关系矩阵。

78b0e8bf747234fc5e3118799f705a93.png

最终,我们的团队MFV(Megvii-Foundation model-Video)在 OpenLane Topology 挑战赛中凭借 OLS 指标的显著优势取得了第一名。

7586b35cfbf6d2184b9645cfe1267aa4.png

https://opendrivelab.com/AD23Challenge.html#Track1

[1] Wang, Huijie, et al. "Road Genome: A Topology Reasoning Benchmark for Scene Understanding in Autonomous Driving." arXiv preprint arXiv:2304.10440 (2023).

[2] Liu, Yingfei, et al. "Petrv2: A unified framework for 3d perception from multi-camera images." arXiv preprint arXiv:2206.01256 (2022).

[3] https://github.com/ultralytics/ultralytics.

1638fdfb13a003a01c776c1a9097220f.gif


http://lihuaxi.xjx100.cn/news/1267403.html

相关文章

Vue 中利用 new Date() 获取当前时间的方法详解

系列文章目录 文章目录 系列文章目录前言一、使用 new Date() 方法获取当前时间二、常见的时间格式化方法1.格式化为指定格式的字符串2.获取时间的各个部分 三、常见的时间格式化方法总结 前言 在 Vue 开发中,获取当前时间是一项常见的需求。而利用 JavaScript 中的…

Mac中idea常用快捷键

1.commandF 在当前文件进行文本查找 2.commandshiftF 进行工程和模块中的文件搜索 3.command/ 对代码进行注释,并且自动移动到下一行 4.optioncommandL 进行格式化代码 5.双击shift : 全局搜索(类) 6.commandoption⬅️ : 返回上一步代码 7.commando…

决策分析——层次分析法

工程测量与经济决策方案 决策分析——层次分析法 一、描述 层次分析法的基本原理:根据问题的性质和要达到的总目标,将问题分解为不同的组成因素,并按照因素间的相互关联影响以及隶属关系将因素按不同层次聚集组合,形成一个多层次…

强化学习:AI领域的下一步里程碑

第一章:引言 近年来,人工智能(AI)的快速发展引起了全球范围内的广泛关注。在AI的众多技术领域中,强化学习(Reinforcement Learning)作为一种类似于人类学习的方式,在解决复杂问题方…

人工智能时代,你知道ai绘画如何使用吗?

在数字时代的今天,人工智能正逐渐渗透到我们生活的方方面面,艺术创作也不例外。ai绘画软件作为一种创新的工具,为艺术爱好者、设计师和创作者提供了崭新的创作方式。但是,对于初次接触这类软件的人来说,可能会感到一些…

英语口语进阶:让你的疲劳与口渴表达更地道

前言 🏠个人主页:我是沐风晓月 🧑个人简介:大家好,我是沐风晓月,阿里云社区博客专家 😉😉 💕 座右铭: 先努力成长自己,再帮助更多的人,一起加油进…

[重走长征路]反射学习笔记

反射是动态语言的关键,反射机制允许程序在运行期间借助ReflectionApi取得任何类的内部信息,并能直接操作任意对象的内部属性的方法。 概述:java提供的一套api,可以使用api可以在运行时动态的获取指定对象所属的类,创建…