目标检测 | 清晰易懂的SSD算法原理综述

news/2024/7/3 17:14:06

点击上方“小白学视觉”,选择加"星标"或“置顶

重磅干货,第一时间送达

SSD(Single Shot Detection)是一个流行且强大的目标检测网络,网络结构包含了基础网络(Base Network),辅助卷积层(Auxiliary Convolutions)和预测卷积层(Predicton Convolutions)。

本文包含了以下几个部分:

(1)理解SSD网络算法所需要理解的几个重要概念

(2)SSD网络框架图

(3)SSD网络中几个重要概念的详细解释

(4)SSD网络如何定位目标

(5)SSD网络的算法流程图

(5)小结

1.理解SSD网络所需要理解的几个重要概念

Single Shot Detection :早期的目标检测系统包含了两个不同阶段:目标定位和目标检测,这类系统计算量非常耗时,不适用实际应用。Single Shot Detection模型在网络的前向运算中封装了定位和检测,从而显著提高了运算速度。

多尺度特征映射图(Multiscale Feature Maps):小编认为这是SSD算法的核心之一,原始图像经过卷积层转换后的数据称为特征映射图(Feature Map),特征映射图包含了原始图像的信息。SSD网络包含了多个卷积层,用多个卷积层后的特征映射图来定位和检测原始图像的物体。

先验框(Priors):在特征映射图的每个位置预先定义不同大小的矩形框,这些矩形框包含了不同的宽高比,它们用来匹配真实物体的矩形框。

预测矩形框:每个特征映射图的位置包含了不同大小的先验框,然后用预测卷积层对特征映射进行转换,输出每个位置的预测矩形框,预测矩形框包含了框的位置和物体的检测分数。比较预测矩形框和真实物体的矩形框,输出最佳的预测矩形框。

损失函数:我们知道了预测的矩形框和真实物体的矩形框,如何计算两者的损失函数?

损失函数包含了位置损失函数和分类损失函数,由于大部分矩形框只包含了背景,背景的位置不需要定位,因此计算两者的位置损失函数用L1函数即可。我们把背景称为负类,包含了物体的矩形框称为正类,不难理解图像中大部分的矩形框只包含了负类,若用全部的负类和正类来计算损失函数,那么训练出来的模型偏向于给出负类的结果。解决办法是在计算分类损失函数时,我们只选择最难检测的几个负类和全部正类来计算。

非极大值抑制(Non-maximum Suppression):若两个矩形框都包含了相同的物体,且两个矩形框的重叠度较高,则选择分数较高的矩形框,删除分数较低的矩形框。

2.SSD网络框架定义及其应用

SSD网络包含了基础网络,辅助卷积层和预测卷积层:

  • 基础网络:提取低尺度的特征映射图

  • 辅助卷积层:提取高尺度的特征映射图

  • 预测卷积层:输出特征映射图的位置信息和分类信息

下面介绍SSD网络的这三个部分

基础网络

基础网络的结构采用了VCG-16网络架构,VCG-16网络如下图:

dd9d5d9d5489463aaba3671ddbefe318.png

VCG-16网络包含了卷积层和全连接层(FC Layers),全连接层的任务用来分类,由于基础网络只需要提取特征映射图,因此需要对全连接层用卷积层代替,这一部分的参数和VCG-16网络的卷积层参数用迁移学习的方法获取。

基于VCG网络架构的基础网络如下图:

91a37ed989860c85c5ee3387d2799706.png

辅助卷积层

辅助卷积层连接基础网络最后的特征映射图,通过卷积神经网络输出4个高尺度的特征映射图:

10a1b292a87d3cf3a27f7ccc7d9d018a.png

预测卷积层

预测卷积层预测特征映射图每个点的矩形框信息和所属类信息,如下图:

cea4a52841bffa38712d5a3371794650.png


3.SSD网络中几个重要概念的详细解释

如何表示矩形框

我们用矩形框定位物体的位置信息和所属类,如下图:

f3b042b18af21aadff73618054a75fd6.png

常用四个维度表示矩形框信息,前两个维度表示矩形框的中心点的位置,后两个维度表示矩形的宽度和高度。为了统一,我们使用归一化的方法表示矩形框:

1aa7984474d3d9c3f70b2b638a213267.png

上图猫的矩形框为:(0.78,0.80,0.24,0.30)

如何衡量两个矩形框的重叠度

SSD算法中有两处需要计算矩形框的重叠度,第一处是计算先验矩形框和真实矩形框的重叠度,目的是根据重叠度确定先验框所属的类,包括背景类;第二处是计算预测矩形框和真实矩形框的重叠度,目的是根据重叠度筛选最优的矩形框。

我们用Jaccard Index或交并比(IoU)衡量矩形框的重叠度。

交并比等于两个矩形框交集的面积与矩形框并集的面积之比,如下图:

b8b8a099092f6ec9bec17a15b718c799.png

损失函数算法

预测层预测了映射图每个点的矩形框信息和分类信息,该点的损失值等于矩形框位置的损失与分类的损失之和。

首先我们计算映射图每个点的先验框与真实框的交并比,若交并比大于设置的阈值,则该先验框与真实框所标记的类相同,称为正类;若小于设置的阈值,则认为该先验框标记的类是背景,称为负类。

然后预测层输出了映射图每个点的预测框,预测框的标记与先验框的标记相同。

预测框与真实框的损失函数等于预测框位置的损失与分类的损失之和。

1. 预测框位置的损失:

由于不需要用矩形框定位背景类,所以只计算预测正类矩形框与真实矩形框的位置损失:

我们用 nn.L1Loss函数计算矩形框位置的损失。

n1.L1Loss函数:

torch.nn.L1Loss(size_average=None, reduce=None, reduction='mean')

公式:

74d738d2a561a83154476b49719ec479.png

其中N表示样本个数。

如果reduction不为'none'(默认设为'mean'),则

647f9f6c7a51f65598c8ea28c4b7fbea.png

假设共有N个正类的预测矩形框,每个矩形框的位置为

8b803e76fc7c5de78005fa6fc3bbf68e.png

其中 i = 1,2,...,N

每个预测矩形框对应的正类真实矩形框的位置为:

67f5930504d467076cb9cb73e83e89fc.png

如下图的预测矩形框和对应的正类真实矩形框:

da97a8d610297069f34eaa04338c3a85.png

损失函数为:

f1280ce74ae23396ed1ec8266fc24d03.png

2.预测类的损失:

由第一节的损失函数介绍可知,大部分的预测矩形框包含了负类(背景类),容易知道一张图中负类的个数远远多于正类,若我们计算所有类的损失值,那么训练出来的模型会偏向于预测负类的结果。

因此我们选择一定数量的负类个数和全部的正类个数来训练模型,负类个数N_hn,正类个数N_p,负类个数与正类个数满足下式:

4796d0bd5f6dfb4165518778b19ee72f.png

我们知道了负类个数,如何从数量庞大的负类中选择所需要的负类个数?本文采用了最难检测到负类的预测框作为训练的负类,称为Hard Negative Mining。

现在我们知道了如何选择负类,那么如何预测分类损失函数?关于多分类任务,我们常用交叉熵来评价分类损失函数。

若预测的类个数为K(包含了背景类),交叉熵公式如下:

f5c146f898e8b121f3ab439a7d2604e5.png

其中67365bf904b16d1d4ef7932f1018985c.png为真实类属于第 i 类概率,若属于第 i  类则0c15d3be9b6bf87101a692de8d0433a7.png

;若不满足则3cf26607741174d018e507798401d088.pngcf0819e7852a307f4ea1391f54625940.png为预测类属于第i类的概率,每个先验框的预测类是一个1行K列的矩阵。

若交叉熵损失函数为CE Loss,预测类的损失为7d8f230448fb8a43d91edae5d0d05f3e.png,有:

558acc0167d0f13fe9c98285551f5b4d.png

其中N_P和N_hn分别为正类、负类个数。

总损失函数为预测类损失和预测位置损失之和,记为L,有:

fce64fe5cae4a3e8b70ff5e2903b1ed3.png

α常设置为1,或者也可作为待学习的参,SSD论文中设置α等于1。

4.SSD网络结构如何定位目标

前面介绍通过先验框和真实框的交并比来分类,若交并比大于阈值则为正类(包含某个特定物体的类),若交并比小于阈值则为负类(背景类)。

预测框与先验框的个数相等,若有多个相同正类的预测框的交并比很大(如下图),如何选择最优的预测框?

8f6457852c396b2a91f0abf3876f17b5.png

上图的五个预测框预测了三只狗和两只猫,三只狗的交并比如下表:

e43d08a3f41389b1394a61a43d172411.png

设置阈值为0.5,因为预测dog B的分数最大(0.96),且dog B和dog C的交并比大于阈值,因此一致dog C的预测框。由于dog A与其他预测框的交并比小于阈值,因此保留dog A的预测框。即狗的输出结果为两个。

猫的预测矩形框如下表:

0b7b4c10ce648babac0583389e0f8805.png

同理,由于cat A的预测分数最高,且cat B与cat A交并比大于阈值,因此抑制cat B预测框。

上述方法称为非极大值抑制(Non-Maximum Suppression)。

根据非极大值抑制方法,猫狗的预测框如下图:

77288dcf7105e9197674ca1b26eb25aa.png

5.SSD网络的算法流程

介绍了SSD网络结构以及理解该网络所需要的基础概念,基于这些知识,下面介绍SSD网络的算法流程。

训练阶段:

db22baf7d9c7d9a8480de1ceffcb1285.png

预测阶段

9cf9e47f6a978e7a37c8c62f50b87e56.png

6.小结

本文介绍了SSD算法框架及原理,由于算法细节较多以及篇幅的关系,小编选择了几个非常重要且设计很巧妙的细节进行介绍,更详细内容的链接https://github.com/sgrvinod/a-PyTorch-Tutorial-to-Object-Detection,对于英文不好的同学,可参考该文帮助理解,若有不懂欢迎交流。

下载1:OpenCV-Contrib扩展模块中文版教程

在「小白学视觉」公众号后台回复:扩展模块中文教程即可下载全网第一份OpenCV扩展模块教程中文版,涵盖扩展模块安装、SFM算法、立体视觉、目标跟踪、生物视觉、超分辨率处理等二十多章内容。

下载2:Python视觉实战项目52讲

在「小白学视觉」公众号后台回复:Python视觉实战项目即可下载包括图像分割、口罩检测、车道线检测、车辆计数、添加眼线、车牌识别、字符识别、情绪检测、文本内容提取、面部识别等31个视觉实战项目,助力快速学校计算机视觉。

下载3:OpenCV实战项目20讲

在「小白学视觉」公众号后台回复:OpenCV实战项目20讲即可下载含有20个基于OpenCV实现20个实战项目,实现OpenCV学习进阶。

交流群

欢迎加入公众号读者群一起和同行交流,目前有SLAM、三维视觉、传感器、自动驾驶、计算摄影、检测、分割、识别、医学影像、GAN、算法竞赛等微信群(以后会逐渐细分),请扫描下面微信号加群,备注:”昵称+学校/公司+研究方向“,例如:”张三 + 上海交大 + 视觉SLAM“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进入相关微信群。请勿在群内发送广告,否则会请出群,谢谢理解~

1520ed9b6096815bcac8c52e96d5e9e1.png

973b55dae67f9b3f53881e8ea59061b9.png


http://lihuaxi.xjx100.cn/news/272860.html

相关文章

如何入门Python之Python基础教程详解

随着人工智能的发展,Python近两年也是大火,越来越多的人加入到Python学习大军,对于毫无基础的人该如何入门Python呢?这里整理了一些个人经验和Python入门教程供大家参考。 如果你是零基础入门 Python 的话,建议初学者…

【转帖】SQLServer登录连接失败(error:40-无法打开到SQLServer的连接)的解决方案...

在与SQLServer建立连接时出现与网络相关的或特定与实例的错误.未找到或无法访问服务器.请验证实例名称是否正确并且SQL SERVER已配置允许远程链接.(provide:命名管道提供程序,error:40 -无法打开到SQL Server的连接)(Microsoft SQL Server,错误:2) 我刚刚在登录连接SQL Server …

人脸识别“抓”错了人,他在监狱呆了10天

文末送5本价值百元技术书籍杨净 边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI就很离谱。我,什么都没做,就莫名其妙被警察关了10天?!这是发生在美国新泽西州的一段真实故事。一个酒店偷窃案件,嫌疑人驾车逃逸。警察没…

AI口罩“督查官”诞生记

作者 | 马超出品 | AI科技大本营(ID:rgznai100)在英国脱欧后,谷歌计划让英国用户的账号脱离欧盟的隐私监管政策,改用美国司法标准。尽管这样的修改让数千万英国用户的个人信息置于较少保护之下,但这些信息更…

你有哪些深度学习(rnn、cnn)调参的经验?

点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达你有哪些deep learning(rnn、cnn)调参的经验?作者:hzwer链接:https://www.zhihu.com/question/41631631/answer…

这些Python基础练习题你会几个?

在人工智能大火的当今,Python 作为人工智能时代的首选语言已经越来越收到追捧;但是许多非科班、零基础的小伙伴常常苦于没有合适的入门 Python 的教程而感到苦恼;本人是一名资深Python开发,参与过一些 Python 项目,想和…

zabbix 清空历史表

早上看监控发现页面无法展示,于是登陆zabbix server主机,发现 /data分区 %100 赶紧看下是因为什么数据导致的(其实我知道是因为zabbix历史表导致/data分区爆满的主要写一下处理的思路) 看下果然因为 history_uint表导致的, 登陆zabbix,因为是刚入职,不熟…

网站设计总结

1.文字远比图片有吸引力 2.左上角的内容比右上角的内容由吸引力 3.onmouseover比onclick更吸引用户