-
摘要:目标检测作为计算机视觉领域的基础,其研究价值对于推动人工智能发展具有重要意义。长期以来,许多学者都致力于提升目标检测算法效率及性能的研究,无锚点(anchor-free)的目标检测深度学习算法以尺度灵活、鲁棒性强等优势,开始逐渐广泛应用于目标检测任务。介绍了目标检测领域中卷积神经网络和Transformer两种经典的网络架构;以核心网络架构为分类标准,分别介绍了基于卷积神经网络和基于Transformer的anchor-free目标检测深度学习算法,总结了这些算法的改进点和优缺点,并对该方向的未来发展及应用做出展望。
关键词:目标检测;anchor-free;卷积神经网络;Transformer
0引言
自2012年AlexNet[1]提出以来,深度学习的研究热潮也同样带动了目标检测技术发展。目标检测是计算机视觉领域的重要任务之一,旨在于给定的图像中准确地定位和分类感兴趣的目标。2013年,Girshick等[2]提出R-CNN框架,随后学者相继提出了Faster R-CNN[3]、Mask R-CNN[4]和Cascade R-CNN[5]等两阶段的目标检测算法和SSD[6]、YOLOv2[7]和YOLOv3[8]等单阶段的目标检测算法。这些经典的目标检测算法大多数是基于锚框(anchor)机制的,因此当时锚框的设计与使用被认为是高精度目标检测必不可少的一部分。基于锚框的目标检测算法(anchor-based)通常会在输入图像中采样大量的区域,然后判断这些区域中是否包含感兴趣的目标,并调整区域边界从而更准确地预测目标的真实边界框。已有的目标检测综述[9-11]梳理了这些常见的基于锚框的目标检测算法,这些方法存在的几种局限性。
(1)基于锚框的目标检测算法在表现效果中对于锚框的尺寸、长宽比、数目非常敏感,不同任务往往需要重新设置锚框大小和长宽比。预先定义的锚框也限制了检测器的泛化能力,在处理形状变化大的目标上表现不佳,如书本、尺子等目标在不同摆放方向下,长宽比变化大。
(2)为了尽可能地与大多数的真实框实现最大程度的重叠匹配,模型需要生成大量的锚框。这样的操作会导致大部分的锚框在训练时被标记为负样本,只有一小部门的与真实框匹配,因此训练的过程中正负样本会极度不均衡。
(3)在训练中,由于需要计算所有锚框与真实框的交并比(Intersection over Union,IoU),基于锚框的目标检测算法需要消耗大量的内存和时间。此外,非极大值抑制(Non-Maximum-Suppression,NMS)等后处理操作也会降低整个检测算法的速度。因此基于锚框的目标检测算法普遍存在训练成本高,训练速度慢的问题。
为应对上述问题,学者们开始研究anchor-free的目标检测算法来改善锚框机制带来的各种状况,以提升目标检测算法的性能和速度。基于卷积神经网络[12]的an‐chor-free目标检测算法的核心思想有两种,一是将框的预测转化为基于关键点的预测,二是使用全卷积神经网络直接进行密集预测。基于关键点的预测训练前不再对当前训练数据聚类出多个宽高的锚框参数,而是通过定位目标物体的一个或者多个关键点并组合来限定它的搜索空间,然后通过回归点到边界框的距离或回归框的长宽来形成检测框。基于Transformer[13]的anchor-free目标检测算法的核心思想是将目标检测转化为集合查询的问题,通过Transformer的编码器-解码器结构和前向反馈网络直接预测出目标物体的类别和框。本文第1节介绍了目标检测领域中常用的卷积神经网络和Transformer两种经典的网络架构;第2节详细介绍经典的基于卷积神经网络的anchor-free目标检测算法的框架细节;第3节将介绍最新的基于Transform的anchor-free目标检测算法的框架细节;第4节对这些算法进行总结,并对anchor-free目标检测的未来发展进行展望。
1目标检测领域的经典网络架构
1.1卷积神经网络
卷积神经网络是一种专门用于处理具有结构化数据的人工神经网络。它的设计灵感来自人类视觉系统的工作方式,被广泛应用于计算机视觉领域,用于图像识别、物体检测、图像分割等任务。卷积神经网络中的关键操作是卷积操作,它利用卷积核(filters)对输入数据进行特征提取。这种操作可以有效地捕获局部特征,并且在参数共享的基础上降低了模型的复杂度。关于卷积神经网络的特性可以总结如下。
(1)权重共享:卷积神经网络中卷积核的参数在整个图像上共享,这减少了需要训练的参数数量,同时也提高了模型的泛化能力。
(2)良好的平移不变性:由于卷积操作的使用,卷积神经网络对于输入数据的平移具有一定的不变性,这使得模型更具有鲁棒性。
(3)逐渐抽象的特征表示:随着网络层次的加深,卷积神经网络能够逐渐学习到更抽象、更高级别的特征表示。
卷积神经网络在目标检测中扮演着重要的角色,卷积神经网络通常由多个层次组成,包括卷积层、池化层和全连接层。其中,卷积层通常用于提取图像特征,池化层用于降低特征图的维度,全连接层用于进行分类物体和回归边界框。因此,卷积神经网络的发展与其性能直接决定了基于卷积神经网络的目标检测算法的发展。
2012年,Hinton等[1]提出的AlexNet通过大规模数据集ImageNet获得了巨大的成功,带动了深度学习在计算机视觉领域的发展。2014年,Simonyan K等[14]提出了VGGNet,使用3×3的卷积核代替5×5和7×7的卷积核,这种深层小卷积核的设计显著提升了卷积神经网络的性能,后续的目标检测算法SSD[6]便是以此为骨干网络。Szegedy C等[15]提出的GoogleNet设计了Inception模块,采用多尺度的卷积核并行提取特征,降低了计算复杂度。经典的单阶段目标检测算法YOLO便是以GoogleNet为基础。2015年,何恺明等[16]提出了残差神经网络ResNet,通过跳跃连接的设计克服了深度网络训练过程中的梯度消失问题,实现了更深的神经网络,大幅提升了卷积神经网络的性能,也促进了目标检测算法性能的不断提升。针对网络过于复杂的问题,学者们提出了MobileNet[17]和EfficientNet[18]等轻量化的卷积神经网络,减少了计算量和参数数量,推动了目标检测算法的落地与应用。
1.2 Transformer
Transformer是人工智能领域一种革命性的神经网络架构,不同于传统的循环神经网络(Recurrent Neural Network,RNN)或卷积神经网络,Transformer的核心思想是利用自注意力机制(self-attention)来实现序列数据的建模,即通过比较序列中不同位置的相关性,为每个位置分配权重,从而生成序列的表示。Transformer的特性可以总结如下。
(1)捕获全局依赖:Transformer的核心是自注意力机制,它允许模型在处理序列数据时对不同位置的信息进行加权处理。通过计算每个位置与其他位置之间的相关性,Transformer能够捕捉到全局的上下文信息,从而更好地理解输入序列。
(2)并行计算:相比于传统的循环神经网络,Transformer可以并行计算,因为每个位置的表示都可以独立地计算。这使得Transformer在处理长序列时更加高效。
(3)多头注意力机制:Transformer引入了多头注意力机制,通过将注意力机制应用于不同的表示子空间,可以捕捉到不同层次的语义信息。每个头都可以关注输入序列的不同部分,从而提高模型的表达能力。
(4)编码器-解码器结构:Transformer最初被用于机器翻译任务,因此采用了编码器-解码器结构。编码器用于将输入序列编码为上下文表示,而解码器则根据上下文表示生成输出序列。
Transformer对比卷积神经网络,天生拥有全局的感受野,同时其并行性和通用性更强,是计算机视觉发展的趋势。因此,基于Transformer在计算机视觉中的应用与发展,研究目标检测算法具有重大的意义。Transform‐er最初应用在自然语言处理(Natural Language Process‐ing,NLP)领域,并取得了巨大成功。随着Transformer在NLP领域的成功,研究人员开始将其应用于计算机视觉领域。最早的尝试是在CNN中引入注意力机制,以提取全局信息。随后,一些工作开始探索完全使用Trans‐former模型替代CNN,解决图像领域的问题。2020年,谷歌提出了ViT(Vision Transformer)[19],它将图像划分为多个小块,并将每个块作为输入序列传递给Transform‐er模型。ViT通过预训练和微调,在图像分类任务上取得了出色的性能。2021年,Liu等[20]提出了SwinTrans‐former,它引入了分层的注意力机制和窗口化的操作,提高了模型的效率和性能。Peng等[21]提出的Conformer,设计了并行的CNN和Transformer分支,结合了Transform‐er中的自注意力机制和CNN中的多尺度特征提取能力。
2基于CNNs的无锚框的目标检测
2.1 YOLOv1
Joseph Redmond等[22]提出的YOLOv1是最早期的an‐chor-free目标检测方法。该算法创造性地使用端到端的网络结构完成目标检测,它把目标检测问题看作一个回归问题,将图片输入单一的神经网络提取特征,然后直接在提取的特征图上回归物体的类别和边界框,省略了设置大量的预选框的步骤。YOLOv1的网络结构采用了GoogleNet的思想,使用卷积层提取图像特征,然后使用全连接层来预测最终的类别概率和边界框信息。具体地,YOLOv1的网络结构由24个卷积层和2个全连接层按照顺序依次叠加组成。如图1所示,输入图像被分成S×S个等大的网格,每个网格为一个单位,使用卷积网络层进行特征提取后生成7×7的特征图,特征图上的每个点映射在原图上为一个单位。设定每个单位生成2个预测框,并且只预测一个物体。故如果一个物体的中心点落入到一个单位中,那么该单位就要负责预测该物体。通过计算每个预测框的置信度分数实现对各个分类概率的预测。最终得到的预测框使用NMS进行过滤,从区域里交叠的多个边界框中选一个最优解。
与传统的基于锚框的目标检测算法相比,YOLOv1具有许多优势。一是YOLOv1的端到端结构实质是一个单阶段网络,与多数基于锚框的双阶段目标检测网络相比,其流程得到了简化,运行速度得到了大幅提升,达到了45 f/s。二是YOLOv1是在整个图像上进行推断的,这使得YOLOv1提取的特征隐式地包含了关于类的上下文信息以及它们的外观,能有效降低背景误检率。反之,经典的基于锚框的R-CNN系列算法由于看不到更大的上下文,容易将背景块误检为目标前景。YOLOv1展现出了anchor-free在目标检测领域的巨大潜能,提出的范式也实现了更快速地识别图像中的目标。但是,由于YO‐LOv1直接在图像上进行网络划分,其对于较小的物体或者相邻很近的物体检测效果不佳,所以其总体精度仍然落后于许多先进的基于锚框的目标检测算法。由YO‐LOv1引出的如何兼顾与权衡目标检测算法速度和精度这一问题也是后续许多研究的改进方向。
2.2 CornerNet
2018年,Law等[23]提出的检测模型CornerNet,是第一个将预测边界框转化为预测关键点的目标检测算法,开启了基于关键点的anchor-free目标检测算法的大门。CornerNet模型对目标的检测实质是对目标由左上角点和右下角点组成的一对关键点的检测。如图2所示,Cor‐nerNet的主干网采用了Hourglass Network[24],主干网后紧跟两个预测模块(prediction modules),一个用于检测目标的左上角点(top-left corners),另一个用于检测目标的右下角点(bottom-right corners)。每个分支都包含一个角点池化层和卷积层。具体地,首先使用Hourglass Network提取图像的特征,然后在预测模块中使用角点池化将目标物体的信息整合到左上角点和右下角点,再输入卷积层预测出热力图(Heatmaps)、嵌入向量(Em‐beddings)、偏移误差(Offsets)3个结果。其中,热力图预测用于表征每个点是目标关键点的概率,嵌入向量用于计算左上与右下角点属于相同对象的相似度,偏移误差用于对角点的位置进行修正。获得上述3个结果后,CornerNet对heatmap进行NMS得到候选的左上角点和右下角点,再根据嵌入向量的距离将候选的角点进行配对得到候选的边界框,最终对这些边界框进行类别筛选和误差修正得到目标检测结果。
CornerNet的特性也导致了它的局限性。CornerNet只关注边缘和角点,然而边界框的角点可能落在语义信息之外,从而忽略目标内部信息,这种情况容易产生假阳性样本,需要添加NMS等后处理进行修正。另外,该模型需要额外为左上角点和右下角点的配对加入一个整合分组,这些操作大幅地降低了算法的性能和效率。
2.3 CenterNet
为改善CornerNet缺乏对物体全局性缺乏关注度的缺点,以中心点预测为核心思想的CenterNet[25-26]应运而生。本文将CenterNet分为两类:一类使用一组角点配合中心点进行预测[25],另一类只使用中心点[26]。CenterNet(使用一组角点配合中心点)在CornerNet的基础之上加入了一个中心点,该方法实质是对CornerNet的进一步优化。其添加的优化措施主要是将中心点与角点以级联结构进行池化,然后生成热力图。这种方法同时包含内部信息和边界信息,弥补了CornerNet的缺陷。其整体框架如图3所示。
CenterNet[26](使用一组角点配合中心点)的方法依然需要非极大值抑制等额外的后处理,对网络列举出的潜在目标区域进行分类,使得网络复杂且效率低下。为此,Zhou等[26]提出了仅用目标的中心点来表示该目标的CenterNet,该模型通过预测目标中心点的偏移量与宽高来获取目标的矩形框。它摒弃了左上角和右下角两个关键点的思路,直接检测目标的中心点,其他特征如大小、3D位置、方向,甚至姿态可以使用中心点位置的图像特征进行回归,是真正意义上的基于卷积神经网络的An‐chor free目标检测。
CenterNet[26](只使用中心点)去除了锚框机制,提升了检测算法的速度;并且直接在热力图执行最大池化操作,去掉了耗时的非极大值抑制等后处理操作,进一步提升了检测算法性能。同时,与YOLOv1不同,Cen‐terNet(只使用中心点)使用了高斯热图来表示目标的中心点,从而提高了召回率。此外,该算法经过简单的改变还能够应用于3D目标检测与人体关键点检测[27]等其他的任务中,具有很好的通用性。
2.4 FCOS
早期研究中,DenseBox[28]提供了一种新思路,使用全卷积网络实现目标检测与关键点定位多任务结合,直接判断目标中心点的位置,并以中心点为出发点进行定位。
受此启发Tian等[29]提出了一种全卷积网络FCOS,使用语义分割的思想来逐像素解决目标检测问题,是一种像素级的单阶段目标检测模型。该方法依旧延续了无锚框、基于中心点检测的思想。FCOS提出:(1)引入Cen‐ter-ness分支,用于计算置信度衡量预测框离目标中心的距离,抑制了远离目标中心点区域所产生的低质量预测框;(2)骨干网络进行特征提取结合特征金字塔[30](Feature Pyramid)得到多层次特征图送入检测头(Head),实现分级预测机制。FCOS的整体框架如图4所示。
与YOLOv1相比,FCOS使用了多层次的特征金字塔FPN,让低层特征尽可能预测小物体,高层特征预测大物体。同时引入了分级预测机制,将重叠物体分开到不同的检测头上进行预测。而YOLOv1只用了一个特征图检测离中心点近的目标,因此FCOS网络能够检测较小或重叠遮挡等更多特殊情况下的物体,性能表现更优秀。FCOS主干网络使用ResNet-101,同时Center-ness分支缓解了后处理非极大值抑制的计算负担,而且没有任何超参数。文献[31]的实验结果也显示,FCOS的性能对比CenterNet(只使用中心点)在mAP上略有提高。
2.5 FSAF
基于锚点机制的模型RetinaNet[32]结合特征金字塔,将锚框离散化至多个特征层根据交并比选择最接近的锚框进行预测。而特征层的选择往往具有随机性,目标不一定能匹配到合适的特征层级。基于特征选择的无锚点模块(Feature Selective Anchor-Free Module,FSAF)[33]的设计动机是让目标框能够动态选择一个最合适的特征层进行学习,锚框机制会限制特征层的选择,因此FSAF没有使用大量的预设框。FSAF模块中的特征金字塔每一层都构建了一个无锚点分支(anchor-free branch),分支分为两个子网络,分别负责分类(class subnet)和回归(boxnet)。对于每一个特征层,在不用锚框检测的前提下,计算每个分支的focal loss,loss最小的分支对应的特征层就是该目标的最佳匹配选择。FSAF结构如图5虚线框部分所示。
文献[33]的实验表明,在RetinaNet加入FSAF模块将模型精度提高了1.8个百分点,给模型性能带来提升。这也为目标检测解决方案提供了一种新的思路:即将无锚点网络模块与基于锚框机制的目标检测器相融合。
3基于Transformer的无锚框的目标检测
3.1 DETR
Transformer凭借全局依赖的捕获能力,在自然语言处理领域取得了优异的性能表现。因此,许多学者尝试将Transform应用为计算机视觉任务中,Carion等[34]提出了首个基于Transformer的端到端的目标检测算法DETR。DETR将目标检测问题建模成一个集合预测问题,并使用匈牙利匹配[35]算法来实现目标框和预测框之间一对一的匹配。
DETR由CNN特征提取层、Transformer编码-解码结构和前向反馈网络(Feed-Forward Network,FFN)组成。图像经过CNN提取图像特征后映射为一个特征向量,然后将图像的特征向量和生成的位置编码输入Transformer编码器-解码器结构。为了将目标检测问题转为直接预测问题,DETR在Transformer的解码器设置了N个可学习的Object Queries来代表可能存在的物体。Transformer的解码器最终会输出N个特征向量送入前向反馈网络进行框和类别的预测,整体框架如图6所示。
DETR作为首个基于Transformer的目标检测算法,提供一种anchor-free,且无需非极大值抑制的全新的目标检测算法范式,大幅地简化了目标检测算法的流程。在性能表现方面,DETR在COCO数据集上实现了与Faster R-CNN相当的AP值。但是,由于需要使用固定数量的Object Queries进行全局交互,DETR需要较长的时间才能得到收敛;同时实验分析表明DETR对于小目标的检测表现不佳;这两个缺点也是后续DETR相关工作的改进方向。
3.2 Deformable DETR
针对DETR训练收敛慢和小目标检测表现不佳的缺点,朱等[36]提出了Deformable DETR算法,核心思想是利用可变形卷积对DETR的注意力模块进行改进。Deformable DETR将可变形卷积与Transformer进行结合,提出了可变形注意力模块。如图7所示,可变形注意力模块从Query中学习参考坐标、采样点偏移量和注意力权重,然后Query仅与采样点做交互,这大幅减少了原始自注意力模块的计算量,同时稀疏空间采样也提升了小目标检测的性能。
Deformable DETR将DETR的训练速度提升了10倍,同时小目标检测的AP值也提升了3.9%。但是由于De‐formable DETR使用了多尺度特征,这也导致其token数量对比DETR反而增加了。
3.3 Conditional DETR
不同于Deformable DETR改变注意力机制的计算对象,孟等[37]发现导致DETR难以收敛的原因之一是解码器的内容嵌入质量不高而无法很好地匹配Object Queries,并针对此问题提出了Conditional DETR算法。如图8所示,该算法从Object Queries中学习条件空间查询,然后将交叉注意力进行解耦,让内容查询和条件空间查询可以分别关注内容嵌入和空间位置编码,保证了查询和键值在统一的空间,有效地缓解了DETR对于内容嵌入的过度依赖,提高了训练效率。实验结果表明,Conditional DETR在各种骨干网络上的收敛速度为DETR的6.7~10倍。
4结束语
本文介绍了一系列anchor-free目标检测算法。YO‐LOv1开创了基于卷积神经网络的anchor-free目标检测算法的研究,以CornerNet、CenterNet和FCOS等为代表的方法主要的核心思想是所预测的关键点的转化与改进。目前,基于卷积神经网络的anchor-free目标检测算法的最新研究是以预测目标中心点的偏移量与宽高来获取预测框,性能提升方面也趋于饱和。基于Transformer的an‐chor-free目标检测算法提供了一个全新的思路,将目标检测问题建模为集合预测问题,去除了非极大值抑制的,简化了目标检测的整个流程。DETR实现了与基于卷积神经网络的目标检测算法相当的性能,Deformable DETR和Conditional DETR进一步改进了DETR类算法的收敛速度。因此,基于Transformer的anchor-free目标检测研究是未来研究的趋势,其普适性更大,性能提升空间更大。
参考文献:
[1]KRIZHEVSKY A,SUTSKEVER I,HINTON G.ImageNet classifi‐cation with deep convolutional neural networks[J].Communica‐tions of the ACM,2017,60(6):84-90.
[2]Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//Pro‐ceedings of the IEEE conference on computer vision and pattern recognition.2014:580-587.
[3]Girshick R.Fast R-CNN[C]//Proceedings of the IEEE interna‐tional conference on computer vision.2015:1440-1448.
[4]He K,Gkioxari G,Dollár P,et al.Mask R-CNN[C]//Proceedings of the IEEE international conference on computer vision.2017:2961-2969.
[5]Cai Z,Vasconcelos N.Cascade R-CNN:Delving into high quality object detection[C]//Proceedings of the IEEE conference on com‐puter vision and pattern recognition.2018:6154-6162.
[6]Liu W,Anguelov D,Erhan D,et al.SSD:Single shot multibox de‐tector[C]//Computer Vision-ECCV 2016:14th European Confer‐ence,Amsterdam,The Netherlands,October 11-14,2016,Proceed‐ings,Part I 14.Springer International Publishing,2016:21-37.
[7]Redmon J,Farhadi A.YOLO9000:better,faster,stronger[C]//Pro‐ceedings of the IEEE Conference on Computer Vision and Pat‐tern Recognition.2017:7263-7271.
[8]Redmon J,Farhadi A.YOLOV3:An incremental improvement[J].arXiv preprint arXiv:1804.02767,2018.
[9]JIAO L,ZHANG F,LIU F,et al.A survey of deep learningbased object detection[J].IEEE Access,2019,7:128837-128868.
[10]LIU L,OUYANG W,WANG X,et al.Deep learning for generic object detection:a survey[J].International Journal of Computer Vision,2020,128(2):261-318.
[11]WU X,SAHOO D,HOI S C H.Recent advances in deep learning for object detection[J].arXiv preprint arXiv:1908.03673,2019.
[12]LeCun Y,Boser B,Denker J S,et al.Backpropagation applied to handwritten zip code recognition[J].Neural computation,1989,1(4):541-551.
[13]Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.
[14]Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv preprint arXiv:1409.1556,2014.
[15]Szegedy C,Liu W,Jia Y,et al.Going deeper with convolutions[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2015:1-9.
[16]He K,Zhang X,Ren S,et al.Deep residual learning for image rec‐ognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:770-778.
[17]Howard A G,Zhu M,Chen B,et al.Mobilenets:Efficient convolu‐tional neural networks for mobile vision applications[J].arXiv preprint arXiv:1704.04861,2017.
[18]Tan M,Le Q.Efficientnet:Rethinking model scaling for convolu‐tional neural networks[C]//International Conference on Machine Learning.PMLR,2019:6105-6114.
[19]Dosovitskiy A,Beyer L,Kolesnikov A,et al.An image is worth 16x16 words:Transformers for image recognition at scale[J].arXiv preprint arXiv:2010.11929,2020.
[20]Liu Z,Lin Y,Cao Y,et al.Swin transformer:Hierarchical vision transformer using shifted windows[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:10012-10022.
[21]Peng Z,Huang W,Gu S,et al.Conformer:Local features couplingglobal representations for visual recognition[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:367-376.
[22]Redmon J,Divvala S,Girshick R,et al.You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE confer‐ence on computer vision and pattern recognition.2016:779-788.
[23]Law H,Deng J.Cornernet:Detecting objects as paired keypoints[C]//Proceedings of the 15th European Conference on Computer Vision.Munich,Germany.2018.734-750.
[24]Newell A,Yang KY,Deng J.Stacked hourglass networks for hu‐man pose estimation.Proceedings of the 14th European Confer‐ence on Computer Vision.Amsterdam,the Netherlands.2016:483-499.
[25]Duan K,Bai S,Xie L,et al.Centernet:Keypoint triplets for object detection[C]//Proceedings of the IEEE/CVF International Con‐ference on Computer Vision.2019:6569-6578.
[26]Zhou XY,Wang DQ,Krahenbuhl P.Objects as points[J].arXiv:1904.07850,2019.13.
[27]Mousavian A,Anguelov D,Flynn J,et al.3D bounding box esti‐mation using deep learning and geometry[C]//Proceedings of
2017 IEEE Conference on Computer Vision and Pattern Recog‐nition.Honolulu,HI,USA.2017.5632-5640.
[28]HUANG L,YANG Y,DENG Y,et al.DenseBox:unifying land‐mark localization with end to end object detection[J].arXiv pre‐print arXiv:1509.04874,2015.
[29]TIAN Z,SHEN C H,CHEN H,et al.FCOS:fully convolutional one-stage object detection[C]//Proceedings of the 2019 IEEE/CVF International Conference on Computer Vision,Seoul,Oct 27-Nov 2,2019.Piscataway:IEEE,2019:9626-9635.
[30]LIN T Y,DOLLÁR P,GIRSHICK R B,et al.Feature pyramid net‐works for object detection[C]//Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition,Hono‐lulu,Jul 21-26,2017.Washington:IEEE Computer Society,2017:936-944.
[31]Iandola FN,Han S,Moskewicz MW,et al.Squeezenet:AlexNet-level accuracy with 50x fewer parameters and<50MB model size[J].arXiv preprint arXiv:1602.07360,2016.
[32]LIN T,GOYAL P,GIRSHICK R,et al.Focal loss for dense object detection[J].IEEE Transactions on Pattern Analysis and Ma‐chine Intelligence,2017,42(2):318-327.
[33]Zhu C,He Y,Savvides M.Feature selective anchor-free module for single-shot object detection[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition.2019:840-849.
[34]Carion N,Massa F,Synnaeve G,et al.End-to-end object detec‐tion with transformers[C]//European Conference on Computer Vi‐sion.Cham:Springer International Publishing,2020:213-229.
[35]Kuhn H W.The Hungarian method for the assignment problem[J].Naval research logistics quarterly,1955,2(1-2):83-97.
[36]Zhu X,Su W,Lu L,et al.Deformable detr:Deformable transform‐ers for end-to-end object detection[J].arXiv preprint arXiv:2010.04159,2020.
[37]Meng D,Chen X,Fan Z,et al.Conditional detr for fast training convergence[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision.2021:3651-3660.
后台-系统设置-扩展变量-手机广告位-内容正文底部 |
-
<< 上一篇
下一篇:没有了!