-
摘要:针对复杂场景抓取位姿估计速度慢、精度低的问题,基于BlendMask实例分割网络,结合实例分割与抓取位姿估计,设计了一种端到端的机械手臂抓取位姿估计深度模型GPNet。该模型首先依据图像2D信息,在BlendMask网络中增加抓取中心、抓取主方向估计分支,提升抓取位姿估计速度;其次采用霍夫投票获取抓取中心及主方向,提高了2D抓取位姿估计的精度与鲁棒性;然后采用椭圆筛选机制,有效地解决了由圆形物体任意性对抓取主方向估计的干扰;最后依据新的损失函数训练GPNet,并结合图像深度信息获得最终抓取位姿信息。以中国信息通信研究院工业互联网平台、工业和信息化部重点实验室抓取实验场景为对象进行抓取速度与精度验证,以9种物体为抓取目标,结果表明在平均每个场景6种抓取目标实例且有干扰物体遮挡的复杂场景下,所提模型位姿估计平均速度达到0.057 s,平均抓取成功率达到90.2%。
关键词:抓取位姿估计;BlendMask;端到端;椭圆筛选;霍夫投票
0引言
工业是技术创新的主战场,随着工业4.0的提出,智能机器人的研究引起了研究者的广泛关注,并已成功应用到电商仓库、港口物流[1]等领域。智能机器人作为第三代机器人,综合了人工智能、计算机、大数据、大脑神经学等众多学科。此类机器人具有很强的感知能力、规划能力、学习能力。机械手臂的智能抓取是机器人实现智能的关键技术,其抓取过程中的核心难题可以归纳为4个关键任务:目标定位、姿态估计、抓取检测和运动规划。姿态估计作为一个关键步骤,直接影响到机械手臂的智能抓取结果。因此,机械手臂抓取位姿估计成为智能机器人研究热点之一。目前,机械手臂的智能抓取位姿估计方法包括基于视觉的方法、基于激光雷达的方法、基于惯性测量单元的方法等。其中基于视觉的智能抓取位姿估计方法主要通过摄像头获取场景图像,并采用计算机视觉相关技术估计机械手臂的抓取位姿。这种方法适用范围广、采集设备简单,因而被众多系统采用。
目前,基于视觉的智能抓取方法分为基于传统计算机视觉的抓取方法和基于深度学习的抓取方法两类。上述方法在结构化环境中[2]已取得巨大的成功。然而,针对遮挡等复杂场景,以上方法存在位姿估计速度慢、精度低等问题。针对上述问题,本文设计了一种在2D视角下端到端的深度学习抓取位姿估计模型GPNet(Grasping PCA Net)。该模型首先依据实例分割的目标定位信息与端到端的抓取位姿估计的优势,有效地提高了位姿估计速度;其次结合了霍夫投票思想,有效地提高了2D抓取位姿估计结果的精度及鲁棒性;然后采用椭圆筛选机制技术,解决了圆形物体方向任意性对抓取主方向估计的干扰;最后以中国信息通信研究院工业互联网平台的数据为对象,进一步验证了本文模型的效率。
1相关工作
目前,针对抓取物体的姿估计,基于视觉的智能抓取方法主要包括基于传统计算机视觉的抓取方法和基于深度学习的抓取方法两大类。
基于传统计算机视觉的抓取方法可以分为基于2D信息的和基于点云或基于深度图像(RGB Color and Depth,RGBD)等3D信息的抓取位姿估计两类。典型方法有:2014年杨扬[3]提出了一种基于RGBD图像的三维建模方法,将抓取物体与模型库中的模型进行匹配进行物体的识别;2015年郝明[4]提出了一种基于模板匹配的方法,该方法依据图像中抓取物体的中心计算物体的中心,进而获得位姿信息。基于传统计算机视觉的抓取方法理论成熟,但是此类方法依赖采集数据质量,无法适用于待抓取物体在形状、尺度上差异较大的复杂场景。
基于深度学习的抓取方法主要采用深度网络进行抓取位姿估计,可分为基于2D信息和基于3D信息两种方法[5]。基于2D图像的深度学习方法充分利用了图像颜色、纹理等信息,典型方法有:2018年Johnson-Rober⁃son等[6]提出了SilhoNet,先进行6D位姿估计,再决定抓取策略,但该方法仍存在稳定性不足的缺陷。2020年Weng等[7]利用R-FCN和Angle-net两个级联的深度学习模型,以“先粗略估计再精细微调”的思路,完成了基于2D图像的端到端的抓取位姿估计,但是由于其没有利用实例分割的信息,因此在复杂场景试验下稳定性和实时性有一定的缺陷。2022年Makihara K等[8]采用生成对抗网络提出了一种基于视觉信息的未知可变形物体抓取位姿估计方法。2022年Li YW等[9]提出了一种多任务实时卷积神经网络Key-Yolact,利用深度学习方法获得轴对称物体的6D姿态,并应用于工业机器人抓取任务中。
近年来,基于3D信息的机器人抓取位姿估计也有了新的进展[10-11]。2019年Mousavian等[12]提出了6-DOF GraspNet,该模型以点云为输入,利用PointNet++[13]网络来完成抓取位姿估计。2020年,Fang H S等[14]利用Realsense等先进设备完成了一个大规模抓取数据库的构建,并提出了GraspNet进行点云编、解码,再通过估计抓取可行点位置和接近向量的方式完成抓取。2022年Jin等[15]研究了RGBD图像中弱纹理目标的6D姿态估计算法DOPE++,该方法通过引入深度可分离卷积和注意力机制来增强不同尺度下零件的识别能力。2023年Cheng H等[16]提出了一种基于锚点的角度回归多尺度深度抓取姿态检测器,该方法通过平行抓手和RGBD相机自动抓取物体。
综上所述,基于传统计算机视觉的抓取方法虽然利用了目标位置信息,但此类方式是基于两阶段进行位姿估计,算法时间复杂度较高;基于深度学习的方法具备端到端的优势,但现有方法都将抓取位姿估计问题均转化为回归问题,忽略了实例分割对抓取位姿估计的正向作用,因此在复杂多种类场景位姿估计中存在结果不稳定等问题。针对上述问题,本文结合基于传统计算机视觉的抓取方法与深度学习方法的优势,设计了能结合两类方法各自优势的、在2D视角下端到端的深度学习抓取位姿估计模型。
2 BlendMask网络
作为一个实例分割模型,BlendMask[17]核心是基于Yolact[18]实例分割网络和FCOS[19]目标检测模型,实现了无锚框实例分割。BlendMask模型首先在主干网络部分利用残差网络完成特征提取,生成不同大小的特征图;之后的用两个分支完成目标检测和实例分割任务。
在目标边界框预测分支,BlendMask采用的方法为无锚框检测方法FCOS,目标边界框预测分支结构如图2所示,具体流程为:输入大小H×W×3的图像I,经主干网络(backbone)进行特征提取后,得到大小为Hi×Wi的特征图(feature map),其中:i代表神经网络的层数编号,本文i的取值范围为[1,5]。FCOS依靠锚点张开边界框的方法完成目标检测。对每个锚点,FCOS首先确定其在特征图中的像素坐标f(a,b),然后计算该锚点在输入图像I中对应的像素坐标p(x,y),之后依据边界框分支预测该锚点到边界框上下左右边界的像素距离,最后依据分类分支和中心度分支输出结果完成非极大值抑制。
FCOS模型特征图像素坐标f(a,b)与输入图像I中锚点像素坐标p(x,y)对应关系为:

式中:si为神经网络下采样后的尺度变化系数。本文下采样率为2,则经过第一个下采样后s 1=2,再经过一次下采样后,尺度变化系数s2=4,依此类推。
FCOS边界框分支根据每个锚点p(x,y)到目标边界框上、下、左、右边界像素距离张开目标边界框。FCOS分类分支对每个锚点p(x,y)张开的边界框内对目标类别进行预测p,生成每个类别的置信度,通道数目为C,即类别数目加1(背景)。FCOS中心度分支对锚点p(x,y)中心度进行预测,量化锚点对其张开的目标边界框内接近边框中心的程度打分,越接近中心则分数越高。
3融合BlendMask的机械手臂抓取位姿估计模型
现有的基于传统计算机视觉的抓取位姿估计模型总是采用“先分割,再估计”的思路。这种二阶段的结构降低了抓取位姿估计模型效率。而基于深度学习的抓取位姿估计模型将抓取位姿估计转化为回归问题,但此类模型在位姿估计过程中没有利用目标信息,因此存在抓取位姿存在估计精度低的问题,不适用于堆放物体多的复杂场景。
针对上述问题,本文提出了一种基于端到端的位姿估计深度模型GPNet(Grasping PCA Net),总体结构如图3所示,该模型在BlendMask的目标检测大分支下,在边界框、中心度、类别置信概率3个分支基础上并行添加了抓取位姿回归分支,完成了目标抓取中心和抓取主方向的预测,最终实现端到端的2D抓取位姿预测。
3.1抓取中心回归模型
以BlendMask模型为基础,为了更精准地预测2D抓取中心,本文将霍夫(Hough)投票思想添加到Blend⁃Mask的边界框检测分支中,通过计算原图像所有属于某特定目标的锚点预测位置的加权投票完成该实例2D抓取中心预测设计过程如图4所示。
具体抓取中心预测过程为:首先设第c个物体的边界框包含n个锚点{p,p,⋯,p,p,p,⋯,p-m},其中:p(x,yjc)表示锚点pj对应第c个目标,1≤j≤m。锚点pj对应其他目标,m+1≤j≤n。然后GPNet预测锚点p(x,yjc)对应目标2D抓取中心的横纵方向绝对偏移距离dx,dyjc与极坐标角度α,因此锚点p抓取中心预测分支输出结果为{dx,dyjc,α};最后锚点p确定的目标抓取中心由式(2)确定。

式(2)的抓取中心位置是根据单个锚点的输出预测,但是在复杂环境中,单个锚点的预测结果存在误差,为了更精准地预测2D抓取中心,需对所有处在目标边界框内部、属于第c个目标的锚点按照距离反比的形式计算权重,即Hough投票方式精确计算抓取中心,具体过程为:在第c个物体的边界框中,锚点p的抓取中心投票权重ρ通过式(3)计算。

式中:m为第c个目标的边界框内类别预测为该目标本身的锚点的数目。
从式(3)可知,任一目标的2D抓取中心位置仅由被预测为该物体的边界框内所有锚点p参与投票决定,投票权重然而,实际应用中,越接近目标抓取中心的锚点对该物体中心位置预测作用越大,但远离目标抓取中心的锚点对预测结果也有不可忽略的作用,如图5所示,在边界框分支中,四个锚点都参与到抓取中心的计算中。为了提升抓取中心的鲁棒性,将权重设定为式(3)中的与距离成线性反比的形式。
因此,在第c个物体的边界框中,依据式(2)和式(3),所有锚点p(x,yjc)加权投票得到第c个目标2D抓取中心C(X c,Y c)为:

3.2抓取主方向回归模型
2D抓取主方向预测与2D抓取中心预测思路类似,每个锚点p(x,yjc)均预测其对应实例的2D抓取主方向。增加2D抓取位姿预测分支后完整的边界框大分支结构如图6所示。
与3.1节的流程类似,所有处在该目标边界框内且被判定为对应该目标的锚点,按照距离反比的形式对主方向做加权投票。与距离估计不同的是,2D抓取主方向估计比2D抓取中心估计更依赖物体全局信息,因此靠近抓取中心的锚点预测值所占权重应更大,相对于其他锚点应该更突出。基于上述理由,2D抓取主方向预测权重可设定为距离倒数,具体过程为:在第c个物体的边界框中,锚点p(x,yjc)抓取主方向投票权重δ为:

本文采用抓取主方向与图像x轴的夹角β来表示抓取主方向。因此,在第c个物体的边界框中,所有锚点p(x,yjc)加权投票得到第c个目标的抓取主方向为:

式中:βjc代表锚点p(x,yjc)对第c个目标预测的抓取主方向。主方向确定后,副方向可定义为与主方向正交的方向。
3.3损失函数设定
在GPNet添加了2D抓取主方向分支和2D抓取中心分支后。新的网络训练损失函数可定义为:

式中:Lm,Lbox,Lc,Ln分别代表掩模损失、目标检测框损失、分类损失、中心度损失,其设定与BlendMask完全相同。Lcctr为2D抓取中心估计损失,对每个锚点而言预测值和监督信号真实值均为R2空间下的向量,因此直接采用平方误差损失(MSEloss)计算。L angle代表2D抓取主方向估计损失,采用SmoothL1Loss计算损失。
然而,式(7)不适用于圆形模型。如果目标物体接近圆形,那么在实际抓取时其主方向可以为任何方向,不应让深度学习模型去学习特定的方向。针对上述问题,本文在式(7)中采用椭圆筛选机制,解决圆形物体对主方向回归带来的干扰,即仅有长短轴比大于1.414的椭圆形物体,才去计算其抓取方向预测损失。
3.4抓取位姿估计
深度学习模型GPNet得到抓取中心、像素坐标下的主方向后,还需要通过相机内参矩阵,并结合深度信息完成二维到三维的反投影,从而获得抓取位姿,步骤为:
(1)对掩模(mask)内所有像素的深度信息绘制直方图,并将直方图中占比小于5%的像素深度信息滤除。优化后的深度信息的平均值作为抓取点深度d。
(2)三维抓取信息计算:首先结合相机内参K,利用抓取中心点C在图片中的像素坐标f(X,Y)及C点的抓取深度d计算相机坐标系下的抓取中心点的三维坐标C 1(Xcam,Ycam,Z cam),具体计算公式为:

然后结合相机和机械臂的转换矩阵Tcam求取最终的世界坐标系下的抓取点C2(Xworld,Yworld,Z world),计算公式为:

在确定抓取中心C2后,还需要确定抓取宽度W2。在3.2节,本文回归了抓取主方向和与主方向正交的副方向。本文规定,以物体中心C2为起点,沿着抓取副方向向两边延展出一条直线,抓取宽度W2即为该直线与掩模的两个交点间距离。
(3)构建物体信息词典。对待抓取的物体信息构建物体信息词典,词典的索引是每个物体的编号(1-N,N为待提取物体的数量),每个索引均对应该物体所属的各项信息,包括类别、包围框、掩模、置信度等,构建词典的目的是为了方便对物体所属信息进行进一步处理。
(4)对物体信息词典分析,根据条件约束(如优先抓取较高物体,优先抓取大物体、优先抓取易碎物体等)对词典进行排序,确定当前抓取对象。
(5)从信息词典取出该抓取对象的抓取中心点C2,抓手旋转角度θ,抓取宽度W2,即可计算机械臂抓取路径并执行抓取操作。
(6)抓取路径的计算:一般夹取时机械臂末端均垂直向下,对于两指抓手来说,抓手闭合时夹持的平面与机械臂坐标系X轴夹角可称为夹取角度,抓手夹取物体时的夹取角度可由θ得到;抓取宽度即为抓手需要张开的距离W2;得到物体抓取中心点后只需要将机械臂的末端夹具中心移动到C2然后闭合夹具即可。
4实验结果与分析
以英特尔Core i7-8750H 2.20 GHz六核处理器,RTX3090为硬件平台,在Ubuntu 18.04操作系统下用de⁃tectron2[20]框架,实现了基于BlendMask的深度学习模型GPNet。以中国信息通信研究院工业互联网平台、工业和信息化部重点实验室抓取为实验场景,采用自制的抓取物体数据集进行训练,并进一步验证了GPNet在多目标多种类等复杂场景下能接近实时地完成精准抓取位姿估计。实验平台如图7所示。
4.1复杂环境下位姿估计精度验证
本节采用74个不同复杂场景作为验证集,收集9种目标物体和5种干扰物体,在平均每个场景下6种目标物体、且有干扰物遮挡的复杂场景进行了试验。同时对上述74个测试场景施加高斯模糊、光照降低两种图像增强方式来构造复杂环境以验证模型的鲁棒性,因此共有222个不同的抓取场景。
成功率评价机制为:对椭圆形物体而言,抓取中心预测结果在实例掩模内、抓取主方向与监督信号差距不超过30°,即视为抓取成功;圆形物体只要满足抓取中心在掩模内部即视为抓取成功。实验结果如表1所示。
从表1中可以看出:GPNet以90.2%的准确率完成了位姿估计,并且对高斯模糊、光照改变等干扰具有较强的鲁棒性。复杂环境下部分可视化结果如图8所示,其中:图中每个射线的端点代表抓取中心预测位置;射线的方向代表抓取方向预测结果。
4.2遮挡场景实验验证
在4.1节的基础上另外布置了20个带有遮挡的复杂场景,其中每个目标的被遮挡面积在20%~40%间。在平均每个场景6种目标物体,且有干扰物体的遮挡下进行抓取成功率验证。实验结果如表2所示。
表2结果表明上述类别抓取成功率达到了86.2%,进一步证明了GPNet在复杂遮挡场景下依然能以较高的成功率完成抓取。遮挡环境下抓取位姿估计可视化结果如图9所示。
5结束语
为了提高复杂环境下,物体位姿估计的速度与精度,本文提出了一种端到端的深度学习2D抓取位姿估计模型GPNet。该模型首先在实例分割模型BlendMask基础上增加抓取位姿回归分支;其次采用椭圆筛选机制,避免了圆形物体干扰抓取主方向回归的问题;然后以中国信息通信研究院工业互联网平台、工业和信息化部重点实验室为平台,进一步验证了模型的效率。由于本文模型不仅用实例分割的优势为抓取位姿估计提供鲁棒性保障,而且保证了端到端的实时性。
BlendMask模型仅从2D图像信息出发,没有利用3D信息。在未来,还可以利用DenseFusion[21]、Pvn3d[22]等融合了2D与3D信息的主干网络来提高3D环境下的端到端3D抓取位姿估计的鲁棒性。
参考文献:
[1]于斌.基于人工智能算法的港口物流船舶运输路径优化研究[J].舰船科学技术,2019,41(22):200-202.
[2]陈明智,钱同惠,张仕臻,等.基于强化学习的多机器人仓储调度方法研究[J].现代电子技术,2019,42(14):165-168.
[3]杨扬.基于机器视觉的服务机器人智能抓取研究[D].上海:上海交通大学,2014.
[4]郝明.机器视觉在机器人杂乱工件分拣中的应用[D].沈阳:沈阳工业大学,2015.
[5]LEVINE S,PASTOR P.Learning hand-eye coordination for ro⁃botic grasping with deep learning and large-scale data collection[J].The International journal of robotics research,2018,37(4/5):421-436.
[6]BILLINGS G,JOHNSON-ROBERSON M.Silhonet:An RGB method for 6D object pose estimation[J].IEEE Robotics and Au⁃tomation Letters,2019,4(4):3727-3734.
[7]WENG Y,SUN Y,JIANG D,et al.Enhancement of real-time grasp detection by cascaded deep convolutional neural networks[J].Concurrency and Computation:Practice and Experience,2020.
[8]MAKIHARA K,DOMAE Y,RAMIREZ-ALPIZAR I G,et al.Grasp pose detection for deformable daily items by pix2stiffness estimation[J].Advanced Robotics,2022,36(12):600-610.
[9]LI Y,GUO F,ZHANG M T.A novel deep learning-based pose es⁃timation method for robotic grasping of axisymmetric bodies in industrial stacked scenarios[J].Machines,2022,10(12):1141.
[10]MAHLER J,LIANG J,NIYAZ S,et al.Dex-Net 2.0:deep learn⁃ing to plan robust grasps with synthetic point clouds and analytic grasp metrics[J].arXiv preprint,arXiv:1703.09312,2017.
[11]KUMRA S,JOSHI S,SAHIN F.Antipodal robotic Grasping us⁃ing generative residual convolutional neural network[C]//2020 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS).IEEE,2020:9626-9633.
[12]MOUSAVIAN A,EPPNER C,FOX D.6-DOF GraspNet:varia⁃tional grasp generation for object manipulation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision(ICCV).IEEE,2019:2901-2910.
[13]QI C R,YI L,SU H,et al.Pointnet++:deep hierarchical feature learning on point sets in a metric space[J].Advances in neural information processing systems,2017,30.
[14]FANG H S,WANG C,GOU M,et al.GraspNet-1billion:a large-scale benchmark for general object Grasping[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recog⁃nition.IEEE,2020:11444-11453.
[15]JIN M,LI J,ZHANG L.DOPE++:6D pose estimation algorithm for weakly textured objects based on deep neural networks[J].PloS one,2022,17(6):e0269175.
[16]CHENG H,WANG Y,MENG M Q H.Anchor-based multi-scale deep grasp pose detector with encoded angle regression[J].IEEE Transactions on Automation Science and Engineering,2023.
[17]CHEN H,SUN K,TIAN Z,et al.BlendMask:Top-down meets bottom-up for instance segmentation[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recog⁃nition,IEEE,2020:8573-8581.
[18]BOLYA D,ZHOU C,XIAO F,et al.Yolact:real-time instance segmentation[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision,IEEE,2019:9157-9166.
[19]TIAN Z,SHEN C,CHEN H,et al.FCOS:fully convolutional one-stage object detection[C]//Proceedings of the IEEE/CVF Inter⁃national Conference on Computer Vision,2019:9627-9636.
[20]WU Y,KIRILLOV A,MASSA F,et al.Detectron2[EB/OL].https://github.com/facebookresearch/detectron2.
[21]WANG C,XU D,ZHU Y,et al.Densefusion:6D object pose esti⁃mation by iterative dense fusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,IEEE,2019:3343-3352.
[22]HE Y,SUN W,HUANG H,et al.Pvn3d:a deep point-wise 3d keypoints voting network for 6DOF pose estimation[C]//Proceed⁃ings of the IEEE/CVF Conference on Computer Vision and Pat⁃tern Recognition,2020:11632-11641.
后台-系统设置-扩展变量-手机广告位-内容正文底部 |
-
<< 上一篇
下一篇:没有了!