当前位置:首页 > 理学 » 正文

  摘要:以解决机械臂在面临多目标场景中执行抓取任务时的路径规划问题为目标,验证PPO算法在机械臂抓取策略上的可行性。研究采用基于PPO算法的深度强化学习,通过在PyBullet仿真环境中进行机械臂与物体的交互模拟,以机械臂末端的位置坐标和目标物体的位置坐标作为状态空间输入到深度强化学习网络,并输出下一步骤的机械臂末端位置坐标,再通过机械臂逆运动学求得各个关节的旋转角度作为动作的输出,最后结合经过优化的奖励函数,提高机械臂在训练抓取任务时的学习效率,加快收敛速度。仿真实验表明,经过优化的奖励函数和PPO算法的应用使得机械臂训练时获取的奖励值能够在第1 000回合左右开始收敛到-50~0,且能够在10步左右的步数稳定完成抓取任务,验证了该方法的可行性。该研究成果在机械臂抓取任务中取得很好的效果,为实际应用中解决复杂抓取问题提供了有力的方法和技术支持。

  关键词:深度强化学习;PyBullet;机械臂抓取;PPO

  0引言

  机械臂抓取在工业应用中灵活多样,同时在人机交互、服务机器人[1-2]等领域都有重要应用。近年来结合机器视觉发展,使机械臂具备环境感知能力,可让机械臂像人一样感知外部环境,提高抓取任务的智能性。尽管已有机械臂与视觉相结合的应用,传统的机械臂抓取方法[3]基于已知对象模型在结构化且简单的环境下进行物体抓取,针对未知物体和复杂场景的自适应能力受限,研发不受场景制约的机械臂抓取系统成为研究焦点。

  然而在机械臂抓取的问题上,强化学习[4]可以通过智能体与环境持续交互,利用预设的奖励作为反馈信号,并不需要人工进行标注,所以学者们考虑将深度学习和强化学习相结合[5]应用到机械臂的抓取任务中深度强化学习通过智能学习与环境交互,提升机械臂的自适应性与感知能力。其独特优势在于能够应对复杂场景、未知物体,实现高效、自主的抓取任务,为机械臂注入灵活性与智能化。

  其中,深度强化学习已经有了许多的实际应用方面,比如说在汽车的自动驾驶方面[6]、各种语言的相互翻译或语音识别等方面、仿生智能体、围棋和电子竞技以及机械臂的控制等方面都取得了很多令人称奇的结果,其出现为将虚拟现实技术、数字孪生技术引入到智能控制领域[7-8],实现机械臂智能控制带来了新的机遇。其研究开始于2013年,Mnih等[9]提出将Q-learning与卷积神经网络相结合的方法,并且提出了深度Q网络的概念(DQN)。并且该团队成功将该想法应用于游戏之中[10]。Wang等[11]将DQN网络进行改进,将DQN分为两个通道,分别用于智能体动作的选择和Q值的生成。Hasselt等提出了另一种DQN的改进方式,也就是利用双重的网络结构[12]。李鹤宇等[13]提出了一种基于深度确定性策略梯度算法的机械臂控制方法,在Unity3D中构建机械臂仿真环境,模拟并实现了机械臂抓取生产线中的物体。加州伯克利大学的Schulman[14]团队提出了称为信赖域策略优化(TRPO)的算法,其核心思想是通过修改代价函数,使智能体更能够产生新的策略。近端策略优化(Proxi⁃mal Policy Optimization,PPO)[15]算法也是该团队的杰作,本质是基于TRPO的改进,该算法通过设置一个惩罚参数,对策略变化程度进行约束,经过实验验证该算法能够在不牺牲效率的前提下使得训练的稳定性提高。

  与此同时,在强化学习训练中,奖励函数设计得是否合理将关系到模型的训练效率,Ferreira[16]使用一个基于势能的奖励函数显著提高了前期阶段的训练效率,证明了利用粗糙的专家知识塑造奖励的方法可对噪声条件表现出良好的鲁棒性;Randlov[17]证实了强化学习和奖励函数塑型的结合能够解决自行车在保持平衡和向目标前进的双重问题;Jagodnik[18]使用距离信息计算和人为主观评价两种方式作为奖励函数来控制手臂仿真机器人,结果均好于优化的比例微分控制器(PD controller)。

  为了实现机械臂的成功抓取和高效率地训练,本文以PPO算法来进行深度强化学习训练,优化其奖励函数,让机械臂在训练过程中能够快速收敛,实现高效率的学习,并能够训练出可以完成抓取任务的深度强化学习模型。

  1总体方案

  如图1所示,本文关注机械臂抓取任务,将其视为一系列连贯的决策-运动控制过程。在每个时间步,智能体获取机械臂和目标物状态信息,包括机械臂末端位置、姿态和目标物位置。根据这些数据,智能体基于深度强化学习训练的策略做出决策,将决策数据传递给关节控制器,实现机械臂各关节的运动。随后,在下一个时间步内,智能体根据新状态信息做出新决策,直至任务完成或判定任务失败。整个过程从任务开始到达成目标或任务失败被称为一次抓取任务(Episode)。
 

 
  本文所采用的机械臂主体为大象机器人mycobot280-M5机械臂,由机械臂、末端执行器自适应夹爪组成。机械臂包含6个连杆和6个转动关节。末端执行器连接到连杆6上,作为连杆6的一部分。根据标准Denavit-Hartenberg(D-H)方法建立机械臂连杆坐标系,如图2所示;mycobot280-M5机械臂的D-H参数如表1所示。
 

 
  2深度强化学习算法

      2.1强化学习


  在强化学习[4]中其交互过程如图3所示,智能体(Agent)是能够执行动作的实体,动作(Action)是智能体从可能的动作列表中选择的集合,而环境(Environment)是智能体的运动场景。环境接受智能体的当前状态(State)和选择的动作,返回相应的奖励(Reward)和下一个状态。状态是智能体当前即时配置的表示,而奖励是度量智能体动作是否成功的反馈。
 

 
  2.2 PPO算法

  Proximal Policy Optimization(PPO)是一种用于深度强化学习的算法,旨在通过迭代优化智能体的策略(Policy)来实现在环境中选择最佳动作以最大化累积奖励,策略是一个映射,定义了在给定状态下智能体如何选择动作。在PPO中,策略表示为概率分布函数,即π(a|s,θ),其中a是动作,s是状态,θ是策略的参数。

  PPO算法的基本思想是通过限制策略更新的幅度,确保新策略与旧策略之间的差异在可控的范围内,以保持算法的稳定性。这一点通过引入对抗性目标来实现。引入对抗性目标,即最大化新策略和旧策略比值的期望值,以平衡更新的幅度。这通过以下对抗性目标函数表示:

       

  式中:为新旧策略比值,at是动作,st是状态,θ是策略的参数;Et为在时间步t的经验期望;

  t为优势函数;clip为一个约束函数,用于对优势比率进行截断,确保其在[1-ϵ,1+ϵ]范围内;ϵ为一个控制更新幅度的超参数。

  上述的优势函数(Advantage Function)用于评估某个动作相对于平均水平的好坏,计算方式为:

      

  式中:γ为折扣因子;ri为时间步i处获得的奖励值(Re⁃ward),奖励值由奖励函数求得;V(st)为状态值函数。

  PPO算法步骤可分为以下5步。

  (1)收集样本。在环境中执行智能体的策略,收集状态、动作和奖励的样本数据。

  (2)评估优势。使用优势函数评估每个动作的优势。

  (3)计算目标。计算近端优化的目标,确保新旧策略之间的差异受到控制。

  (4)更新策略。通过梯度下降等方法更新智能体的策略,使目标最大化,其表达式为:

  θnew=arg maxθL CLIP(θ)(3)

  式中:L CLIP(θ)为对抗性目标函数;θnew为新策略。

  (5)重复迭代。不断重复以上步骤,逐渐优化策略。

  通过这个优化过程,PPO确保了在更新策略时对其进行了适当的限制,防止过度激进的变化,从而保持训练的稳定性。这使得PPO成为处理复杂强化学习问题的一种有效算法。

  2.3奖励函数

  在强化学习中奖励函数在深度强化学习中至关重要。奖励函数是定义奖励(R)的方式,它将智能体在特定状态下采取特定动作的效果映射到一个具体的数值。奖励函数直接影响智能体的决策行为,因此,奖励函数的设计需要综合考虑约束条件对于决策的影响[19]。通常,奖励函数的目标是使智能体在学习过程中趋向于选择能够最大化累积奖励的行为。总体而言,奖励函数是决定强化学习算法能否成功收敛的关键[20]。

       
       

  本文采用密集奖励函数,如式(4)~(7)所示。其中,drx,dry,drz为机械臂末端在世界坐标系上的坐标,dtx,dty,dtz为目标物体在世界坐标系上的坐标,以差值越小、惩罚越小的方式来反馈奖励。其中h代表一个高度值,当目标物体的高度dtz大于这个值的时候,判断抓取成功,赋予2奖励,其次以夹爪有无进行闭合动作来给予惩罚。

      2.4状态与动作空间

  表2所示为在机械臂抓取任务中所设计的状态空间和动作空间。状态空间包括观测状态的维度,其中包括机械臂末端位置、机械臂末端姿态、夹爪开合角度、目标位置、以及目标姿态。动作空间则包含了机械臂末端位置、机械臂末端姿态、夹爪开合角度。这些设计的状态空间和动作空间的维度反映了在抓取任务中需要考虑的关键要素,如机械臂的位置和姿态,夹爪的状态,以及任务中涉及的目标位置和目标姿态。这一设计有助于为深度强化学习算法提供足够的信息,以便智能体能够更有效地学习并执行抓取任务。
 

 
  3仿真与分析

  3.1实验平台参数


  本文把仿真环境搭建在配置如表3所示的硬件平台上,利用NVIDIA GeForce RTX 3060GPU(graphics pro⁃cessing unit)图像处理单元进行推理运算。
 

 
  3.2仿真环境设计

  仿真环境使用PyBullet[21]来构建mycobot280机械臂与物体的交互仿真环境,该仿真环境采用基于Bullet[22]的物理引擎。仿真环境的搭建包括以下内容:首先,在Py⁃Bullet中搭建机械臂仿真环境,在该仿真环境中机械臂、物体和障碍物等都具有真实的物理特性。为确保仿真真实性,设置了标准的地球重力、碰撞检测以及摩擦力。

  随后,导入mycobot280机械臂和待抓取物体的3D模型,将它们准确放置在仿真环境中的指定坐标位置,如图4所示。初始关节角度根据实际机械臂的尺寸和连接关系进行定义,确保仿真环境中的初始状态与真实机械臂一致。
 

 
  3.3任务描述

  设计了一个包含2 500个回合的抓取任务,每回合的最大步数限制为100步。该训练任务的核心目标是使机械臂成功抓取1个随机位置的物体。在每个回合内,机械臂需要通过学习适当的动作策略,以最大化成功抓取物体的次数。通过在大量回合内进行训练,期望机械臂能够逐渐优化其抓取策略,提高在不同位置和场景中的抓取成功率。

  3.4仿真训练结果

  在仿真环境下经过2 500个回合的训练,训练过程中的数据如图5~6所示,分别是每100回合机械臂运动的平均步数以及得到的平均奖励。结果显示该方法在第1 000个回合后平均步数开始收敛在10步左右,即在10步左右能够完成任务,同时平均奖励稳定在-50~0之间,即在第1 000回合左右,训练网络开始收敛。
 

 
  4结束语

  实验证明,优化的奖励函数和PPO算法的应用使机械臂训练迅速收敛且能够稳定完成抓取任务,为机械臂在复杂场景中的智能抓取提供了强有力的支持。这一方法的可行性得到了充分验证,为实际应用中解决复杂抓取问题提供了创新性的方法和技术支持。本文采用PPO算法的深度强化学习,专注于优化机械臂的抓取任务。通过在PyBullet仿真环境中进行实验,研究结果表明经过优化的奖励函数,使机械臂训练过程更快的收敛,且抓取效果理想。通过深度学习和强化学习的融合,为机械臂赋予了更智能、高效的抓取能力,为机械臂在复杂环境中的高效抓取任务提供了可行的深度学习解决方案,为未来机械臂应用的发展带来了新的可能性。

  参考文献:

  [1]A Rakshit,A Konar,A K Nagar.A hybrid brain-computer inter⁃face for closed-loop position control of a robot arm[J].IEEE/CAA J.Autom.Sinica,2020,7(5):1344-1360.

  [2]J Zhang,D C Tao.Empowering things with intelligence:A survey of the progress,challenges,and opportunities in artificial intelli⁃gence of things[J].IEEE Int.Things J.,2021,8(10):7789-7817.

  [3]A Bicchi,V Kumar.Robotic grasping and contact:A review[C]//Proc.IEEE Int.Conf.Robotics and Autom.,San Francisco,CA,USA,2000:348-353.

  [4]MORALES E F,ZARAGOZA J H.An introduction to reinforce⁃ment learning[J].IEEE,2011,11(4):219-354.

  [5]王鹭.基于深度强化学习的机械臂密集堆叠物体智能抓取研究[D].洛阳:河南科技大学,2022.

  [6]Isele D,Rahimi R,Cosgun A,et al.Navigating Occluded Inter⁃sections with Autonomous Vehicles using Deep Reinforcement Learning[C]//IEEE International Conference on Robotics and Automation(ICRA),Brisbane,QLD,2018:2034-2039.

  [7]张旭辉,张超,王妙云,等.数字孪生驱动的悬臂式掘进机虚拟操控技术[J].计算机集成制造系统,2021,27(6):1617-1628.

  [8]陈钢.数字孪生技术在石化行业的应用[J].炼油技术与工程,2022,52(4):44-49.

  [9]Mnih V,Kavukcuoglu K,Silver D,et al.Human-level control through deep reinforcement learning[J].Nature,2015:529–533.

  [10]OisLavet V F,Fonteneau R,Ernst D.Playing Atari with Deep Reinforcement Learning[J].Neural Information Processing Sys⁃tems(NIPS),2013.

  [11]Wang Z,Schaul T,Hessel M,et al.Dueling Network Architec⁃tures for Deep Reinforcement Learning[C]//International confer⁃enceon machine learning.PMLR,2016:1995-2003.

  [12]Van Hasselt H,Guez A,Silver D.Deep Reinforcement Learning with Double Q-learning[C]//AAAI Conference on Artificial In⁃telligence.2016:2094-2100.

  [13]李鹤宇,赵志龙,顾蕾,等.基于深度强化学习的机械臂控制方法[J].系统仿真学报,2019,31(11):2452-2457.

  [14]Schulman J,Levine S,Moritz P,et al.Trust Region Policy Opti⁃mization[C]//International conference on machine learning.PMLR,2015:1889-1897.

  [15]Schulman J,Wolski F,Dhariwal P,et al.Proximal Policy Opti⁃mization Algorithms[J].arXiv preprint arXiv:1707.06347,2017.

  [16]FERREIRA E,LEFEVREF.Expert-based reward shaping and exploration scheme forboosting policy learning of dialogue man⁃agement[C]//2013 IEEE Workshop on Auto-matic Speech Rec⁃ognition and Understanding.IEEE,2013:108-113.

  [17]RANDLØV J,ALSTRØMP.Learning to drive a bicycle using re⁃inforcement learningand shaping[C]//ICML:volume 98.Citeseer,1998:463-471.

  [18]JAGODNIK K M,THOMAS P S,VAN DEN BOGERT A J,et al.Training an actor-criticre in forcement learning controller for actions on Neural Systems and Rehabilitation Engineering,2017,25(10):1892-1905.

  [19]黄玉雄,李更丰,张理寅,等.弹性配电系统动态负荷恢复的深度强化学习方法[J].电力系统自动化,2022,46(8):68-78.

  [20]杨惟轶,白辰甲,蔡超,等.深度强化学习中稀疏奖励问题研究综述[J].计算机科学,2020,47(3):182-191.

  [21]E Coumans,Y Bai.Pybullet,a python module for physics simu⁃lation for games,robotics and machine learning[EB/OL].http://pybullet.org.

  [22]Peng X B,Abbeel P,Levine S,et al.DeepMimic:Example-Guided Deep Reinforcement Learning of Physics-Based Char⁃acter Skills[J].ACM Transactions on Graphics,2018,37(4CD):143.1-143.14.
后台-系统设置-扩展变量-手机广告位-内容正文底部

本文标签:

<< 上一篇 下一篇:没有了!

  • 评论(

赞助团论文网
留言与评论(共有 0 条评论)
   
验证码:

相关文章

随机文章

标签列表

最近发表

    热门文章 | 最新文章 | 随机文章

最新留言

首页 论文知识 教育论文 毕业论文 教学论文 经济学 管理学 职称论文 法学 理学 医学 社会学 物理学 文献 工程论文 学位论文 研究论文

Powered 团论文网 版权所有 备案号:鄂ICP备2022005557号统计代码

全站搜索