解析激光雷达中时序融合的研究现状和发展方向

news/2024/7/7 21:16:46

本文转自:计算机视觉联盟

在自动驾驶领域,基于激光雷达 (LiDAR) 的3D物体检测和运动行为预测是一种普遍的方案。目前绝大部分关于激光雷达的物体检测算法都是基于单帧的。激光雷达的多帧时序数据,提供了对于检测物体的多视角观测 (multiple views),历史记忆 (history memory),安全冗余 (redundant safty),以及运动特征 (motion kinematics) 等丰富的信息;可用来帮助提高检测速度和精度,并且增加检测结果的可靠性。对于感知的下游模块,例如追踪和预测,时序信息则更为重要。

在传统视频理解领域,时序信息融合研究相对比较成熟,具体方法主要通过后处理 (post-processing) 来建立检测物体间的对应关系 [1,2];借助光流 (optical flow) 跨越多帧来传播高层特征 [3,4];或者利用记忆对准 (memory alignment) 直接融合多帧特征信息 [5,6]。相较于视频或者图像,激光雷达的点云非常稀疏,导致对其提取的特征图谱 (feature maps) 也非常稀疏;此外,在点云鸟瞰图 (bird’s eye view) 中绝大多数前景物体如车辆和行人只占据很小的空间范围。所以如何有效融合激光雷达的时序信息对于学术界和工业界仍然是一个开放的问题。

时序融合—3D物体检测

FaF是一个具有代表性的考虑激光雷达时序信息的物体检测和行为预测算法:《Fast and Furious: Real Time End-to-End 3D Detection, Tracking and Motion Forecasting with a Single Convolutional Net》发表于CVPR 2018。该论文提出了一种结合检测,跟踪和预测于一体的网络结构。通常自动驾驶系统包含检测,跟踪,轨迹预测与规划等模块,下游模块以上游模块的结果作为输入。这样的解决方案存在一个问题,即每个模块的误差会在下游逐步累积,例如误检或漏检的物体会对后续的跟踪与预测带来很大影响,从而造成错误的规划,最终对乘车舒适度甚至安全造成负面影响。FaF提出了一种端到端的网络用以同时完成检测,追踪和预测三项任务,从而在一定程度上缓解了各个模块错误的逐级累积。其具体做法是首先将相邻若干帧激光雷达扫描得到的点云转换到同一坐标系下,把每一帧的点云进行体素化 (voxelization);同时为了避免在单帧上使用3D卷积及其所引入的计算复杂度,将高度这一维作为通道 (channel),从而将每一帧表示成为一个三维张量以便使用2D卷积处理。网络以多帧点云的鸟瞰图作为输入,直接输出当前输入5帧的检测结果以及未来10帧的预测结果 (如下图所示)。

对于多帧点云的时序信息,FaF提出了两种融合方式:早期融合 (early fusion) 和后期融合 (late fusion),具体做法如下图所示。早期融合 (下图a) 对输入的每一帧体素表示采取1D时间卷积,空间维度共享权重,将多帧信息合并在一起。这种做法十分高效,可以达到和单帧几乎一样的检测速度;论文中的实验指出,单帧处理需要9ms,早期融合处理5帧需要11ms;但早期融合的缺点是无法准确地捕捉复杂的运动信息。后期融合 (下图b) 则采取逐级融合的方式,通过3D时空卷积逐步将多帧时序信息融合在一起。论文在Uber内部数据集上报告的结果显示,后期融合效果最好,但推理时间也相应增加到30ms。

最近的一篇关于激光雷达时序融合的论文《LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention》收录于CVPR 2020。该论文首先利用图神经网络 (graph neural networks) 构建体柱信息传输网络PMPNet (Pillar Message Passing Network) 从而增加每个体柱特征的感受野 (receptive field) 来增强单帧激光雷达的特征提取。文中进一步提出了结合注意力机制的门控循环卷积AST-GRU (Attentive Spatio-temporal Transformer GRU) 进行时空建模。AST-GRU包含两部分:STA(Spatial Transformer Attention)和TTA (Temporal Transformer Attention)。STA关注于前景物体检测,TTA用以处理运动物体在特征图谱上的对齐,具体操作是通过可变形卷积(deformable convolution) 来对齐前后两帧特征图谱中的运动物体。该方法的网络结构如下图所示,它在nuScenes的3D物体检测数据集上相比于单帧算法有较大提升。

时序融合—3D物体行为预测和运动检测

FaF的后续工作《IntentNet: Learning to Predict Intention from Raw Sensor Data》收录于CoRL 2018。IntentNet在FaF的基础上进一步加入动态高精地图作为输入来提供静态 (如车道,交叉口,交通指示牌等) 和动态 (如红绿灯的状态转换) 语意地图 (semantic map)。包含时序信息的动态高精地图为3D物体检测,意图分类和轨迹预测提供了丰富的线索。为了更好的挖掘和利用激光雷达和动态地图的时序信息,如下图所示,IntentNet的输出端在FaF的3D物体检测 (detection) 和轨迹预测(regression)的基础上加入了行为意图分类(intention classification,例如左/右转,停/泊车,变道等) 一起进行端到端 (end-to-end) 的训练。如下图所示,行为意图分类的结果被连接补充到共享特征(shared features) 上进行基于行为意图分类的轨迹预测,使得轨迹预测获得了丰富的背景环境信息 (context)。相比于FaF,IntentNet的检测和预测的结果均有所提升。

利用时序信息进行物体运动检测是另一个值得关注的方向。这一方向近期有两篇论文发表,《MotionNet: Joint Perception and Motion Prediction for Autonomous Driving Based on Bird's Eye View Maps》发表于CVPR 2020,以及《Any Motion Detector: Learning Class-Agnostic Scene Dynamics from a Sequence of LiDAR Point Clouds》发表于ICRA 2020。这两篇论文的核心方法相近,都是利用多帧点云作为输入,通过网络在鸟瞰图上回归物体的运动行为。MotionNet通过时空金字塔网络 (spatio-temporal pyramid network) 内部的2D空间卷积和1D时间卷积来实现时空信息的提取和融合,从而实现鸟瞰图上以体柱 (pillar) 为单位的语意和状态分类以及运动检测。Any Motion Detector则提出自运动补偿层 (ego-motion compensation layer) 并结合循环2D卷积 (recurrent convolution) 来实现时序信息的高效融合。如下图所示,这类方法的优势在于检测激光雷达视野中所有运动的物体,包括训练集中没有见过的物体,这对自动驾驶的安全性十分有意义。目前点云算法对于常见的物体,例如车辆,行人和骑单车的人,具有较高的检测准确率;而对于不常见的物体 (尤其是运动的物体) 和突发状况,其结果往往并不满意。这类方法也为物体检测和感知提供了一种新的思路。

时序融合—总结

本文对于激光雷达的时序融合这一前沿方向进行了简单的梳理和总结。融合时序信息,可以提升对于3D物体检测的准确率;而对于3D物体的行为预测和运动检测,时序信息则更是必不可少。时序融合同时也为整合自动驾驶系统的感知,跟踪,预测甚至决策等模块提供了信息基础和可能性。相对于视频理解领域,时序融合在激光雷达中的研究和应用还处于相对早期阶段,希望这一重要方向能够吸引越来越多的研发和工程力量来得以不断推进和完善。

  • [1] W. Han, P. Khorrami, T. L. Paine, P. Ramachandran, M. Babaeizadeh, H. Shi, J. Li, S. Yan, and T. S. Huang. Seq-NMS for Video Object Detection. arXiv:1602.08465, 2016.

  • [2] K. Kang, W. Ouyang, H. Li, and X. Wang. Object Detection from Video Tubelets with Convolutional Neural Networks. CVPR, 2016.

  • [3] X. Zhu, Y. Wang, J. Dai, L. Yuan, and Y. Wei. Flow-Guided Feature Aggregation for Video Object Detection. ICCV, 2017.

  • [4] S. Wang, Y. Zhou, J. Yan, and Z. Deng. Fully Motion-Aware Network for Video Object Detection. ECCV, 2018.

  • [5] F. Xiao and Y. J. Lee. Video Object Detection with an Aligned Spatial-Temporal Memory. ECCV, 2018.

  • [6] C. Guo, B. Fan, J. Gu, Q. Zhang, S. Xiang, V. Prinet, C. Pan. Progressive Sparse Local Attention for Video Object Detection. ICCV, 2019.

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~


http://lihuaxi.xjx100.cn/news/276784.html

相关文章

女帝

日本的夜生活很感兴趣,因为日本居然有堂堂正正的牛郎店。在里面长得超帅的牛郎陪客人喝酒、聊天,让客人忘记白天工作的辛苦。所以千万不要认为牛郎是从事色情服务的,虽然也有败类,但那是违反行业准则的……也就是,好的…

计算机转进制怎么看平方,计算机数制转换

一、数制的引入数制就是计数的方法,指用一组固定的符号和统一的规则来表示数值的方法。在日常生活中,人们主要使用十进制(0-9),但在某些时候也使用其它进制,如十二进制(如1年有12个月、1打物品有12件),六十进制(如1小时…

markdown 图片居中_Markdown更改字体、颜色、大小,插入表格等方法

Markdown 通过简单标记语法,使普通文本内容具有一定格式。但它本身不支持修改字体、字号与颜色等功能的。一、更改字体大小、颜色、更改字体Markdown语法效果如下:二、更改字体大小、颜色、更改字体由于 style 标签和标签的 style 属性不被支持&#xff…

今日头条李磊等最新论文:用于文本生成的核化贝叶斯Softmax

译者 | Raku 出品 | AI科技大本营(ID:rgznai100)摘要用于文本生成的神经模型需要在解码阶段具有适当词嵌入的softmax层,大多数现有方法采用每个单词单点嵌入的方式,但是一个单词可能具有多种意义,在不同的背景下&#…

牛逼哄哄的 Lambda 表达式,简洁优雅就是生产力!

点击上方“方志朋”,选择“设为星标”回复”666“获取新整理的面试资料作者:Sevenvidiahttps://www.zhihu.com/question/20125256/answer/3241213081什么是Lambda?我们知道,对于一个Java变量,我们可以赋给其一个“值”。如果你想…

HDU 1061 Rightmost Digit

解题报告&#xff1a;1097的翻版&#xff0c;求 N^N 次方的个位是多少&#xff1f; 详见我的另一篇HDU 1097 A hard puzzle稍加修改就行 1 #include<cstdio>2 int main( ) {3 int xh[20],n,a,N,T;4 scanf("%d",&T);5 while(T--) {6 sc…

开放平台架构_三步画出产品业务架构图

今天有位同学询问&#xff0c;如何才能画出“高大上”的业务架构图。他说&#xff1a;“最近公司要绘制XX行业的解决方案&#xff0c;需要产品经理画出整体架构图&#xff0c;但是自己没接触过&#xff0c;不知道如何下手。”曾经&#xff0c;这个问题也困扰我很久&#xff0c;…

实战 | 多种方法实现以图搜图

点击上方“小白学视觉”&#xff0c;选择加"星标"或“置顶”重磅干货&#xff0c;第一时间送达本文转自&#xff1a;AI 算法与图像处理概述以图搜图技术是日常生活中常用的功能&#xff0c;当你看到某张图片某件衣服甚至是某个明星&#xff0c;可能都无须舔着脸问你身…