基于改进TD3算法的机械臂智能规划方法研究

【摘 要】针对某卫星搭载的4自由度机械臂轨迹规划问题,提出了一种基于改进的双延迟深度确定性策略梯度(TD3)算法的智能规划方法。该方法采用分阶段训练策略,在预训练阶段,采用了目标位置引导联合TD3算法进行轨迹优化的混合规划策略,训练结束后规划算法能够在机械臂关节空间对任意起点、终点进行速度轨迹的自主规划。这种目标引导机制减少了训练时不必要的探索,在一定程度上解决了高维动作空间中学习效率低下的问题。在二次训练阶段,首先通过示教获得一条无碰撞的安全参考轨迹,然后在训练过程中不断对这条轨迹进行模仿,使得最终算法输出的轨迹具备避障能力。

【关键词】 避障规划 ; 目标引导 ; 轨迹示教 ; 双重训练

0 引言

随着机器人技术和空间控制技术的不断进步,空间机械臂在卫星、空间站上有了广泛的应用。近年来逐渐推广的完全采用电推进系统的卫星平台也越来越多地使用机械臂来完成电推力器的指向和位置调节:通过控制机械臂实施大范围运动,使得机械臂末端推力器按照指定的方向喷出工质,从而达到调整卫星位置、姿态的目的。相比传统的 2 自由度矢量调节机构,机械臂拥有更大的运动范围,能够更有效地完成位保、变轨和动量卸载等任务。国内外通常也称这类机械臂为可展开式推力矢量调节机构。目前在轨的诺斯罗普-格鲁曼公司的MEV-1 卫星、欧洲通信卫星公司的 Eutelsat-172B卫星和 SES-12 卫星都携带了类似的机械臂。但是,此类机械臂的自由度一般大于或等于 3,在卫星表面布满诸多载荷的环境中进行运动时,此类机械臂面临与传统用于捕获与操作任务的机械臂类似的避障规划问题。

对于空间机械臂规划问题,传统的快速扩展随机树(rapidly exploring random tree,RRT)算法、PRM(probabilist

猜你喜欢

转载自blog.csdn.net/weixin_57147647/article/details/134916358