首页 > 论文范文 > 社会科学论文 > 科技论文 > 自动化论文 > 基于元强化学习的电力巡检机器人自主越障控制研究

基于元强化学习的电力巡检机器人自主越障控制研究

2024-11-26 60 上传者：管理员

摘要：常规的电力巡检机器人自主越障控制方法以静态越障控制为主，无法自主识别前方障碍，出现越障控制失误的问题。因此，设计了基于元强化学习的电力巡检机器人自动越障控制方法。提取机器人自主越障动力学特征，将电力巡检机器人越障过程中受到的吸附力、支持力、摩擦力考虑在内，分析越障控制的静平衡条件，从而避免越障倾覆的问题。基于元强化学习构建巡检机器人自主越障控制模型，利用元强化学习算法自动学习越障控制模型的超参数，优化自主越障控制网络结构，实现机器人的精准控制。规划电力巡检机器人自主越障控制轨迹，在巡检机器人满足重力平衡条件的基础上，规划电力巡检机器人自主越障轨迹，通过机器人关节变化状态，达到控制机器人越障的目的。采用对比实验，验证了该方法的越障控制性能更佳，能够应用于实际生活中。

关键词：
元强化学习
巡检机器人
电力巡检
自动越障
静态越障控制
加入收藏

电力巡检是对电力系统相关设备进行定期、有计划、有组织地检测与维护工作，能够及时发现、排除电力故障，确保电力设备运行的稳定性。巡检机器人是能够自主巡检、检测、监控电力设备状态的机器人，拥有导航、感知、移动、监测等能力，能够快速、高效、准确地完成电力巡检任务。自主越障控制是机器人通过自身感知、决策、控制的性能，在电力巡检场景中，主动识别障碍物，并控制机器人躲避障碍物的过程。根据识别到的障碍物位置，规划合适的越障路线，从而提高电力巡检的效率。针对机器人越障问题，研究人员设计了多种控制方法。

其中，文献[1]基于改进人工势场法的电力巡检机器人自动越障控制方法。然而，机器人在复杂环境中，无法识别到所有障碍物，路线规划不够全面，无法满足越障控制需求。文献[2]基于蚁群算法融合改进动态窗口法的电力巡检机器人自动越障控制方法，该方法存在正反馈的特点，容易陷入局部最优的问题，导致控制失误的问题。因此，本文结合了元强化学习的优势，设计了电力巡检机器人自动越障控制方法。

1、电力巡检机器人自主越障元强化学习控制方法设计

1.1提取机器人自主越障动力学特征

电力巡检机器人在自主越障的过程中，通过传感器，感知并识别周围障碍物，获取障碍物的信息[3]，根据此类信息确定最佳的越障策略。本文将机器人越障的动力学特征考虑在内，确定机器人越障的临界状态，从而满足越障控制的稳定性需求。将吸附力、支持力、摩擦力考虑在内，分析越障控制的静平衡条件，从而避免越障倾覆的问题[4]。

1.2基于元强化学习构建巡检机器人自主越障控制模型

元强化学习作为自动机器学习的算法，能够将学习率、Batch Size等参数进行优化学习，从而避免学习损失[5]。本文利用元强化学习算法自动学习越障控制模型的超参数，在机器人自主越障控制的过程中，尽可能多地在电力巡检场景中获取障碍物位置，并将障碍物位置作为Batch参数，分批训练。Agent根据不同的任务目标，完成自主越障环境交互的任务[6]。控制Agent在每一个越障任务下，与环境接触20个Episode，每个Episode的长度为200，确保元强化学习的有效性。在Agent与环境交互完成之后，更新越障控制学习网络参数。参数更新的方向就是目标函数最大化的方向，由此生成的目标函数表示为：

式（1）中，J(θ)为自主越障控制的目标函数；N为执行越障任务的Episode;H为Episode的长度；a为元强化学习参数；s为学习率。利用期望函数与下界函数，构建自主越障控制模型，表达式如下：

式（2）中，F为越障过程中受到的吸附力；Ff为越障受到的摩擦力；D(θ)为自主越障控制模型的表达式；oθ为未更新的学习参数；θ为更新的学习参数；M(θ)为越障控制的期望函数；K(θ)为越障控制的下界函数。利用K(θ)与M(θ)求得Surrogate＿loss函数，确定自主越障控制的元强化学习损失[7]。当Surrogate＿loss函数处于最小的状态时，机器人自主越障控制的损失较小。此时，选择直线行进式越障方案[8]。

1.3规划电力巡检机器人自主越障控制轨迹

电力巡检机器人自主越障控制的过程中，不同状态下自主越障控制轨迹不同[9]。本文在巡检机器人满足重力平衡条件的基础上，规划电力巡检机器人自主越障轨迹，通过机器人关节变化状态，达到控制机器人越障的目的。

姿态角表示巡检机器人在三维空间的朝向。在机器人越障过程中，姿态角越小，越障过程中空间移动范围越小，越障控制的稳定定越高[10]。

2、实验

为了验证本文设计的方法是否满足电力巡检机器人自主越障控制需求，本文对上述方法进行了实验分析。最终的实验结果则以文献[1]基于改进人工势场的越障控制方法、文献[2]基于蚁群算法融合改进动态窗口的越障控制方法，以及本文设计的基于元强化学习的越障控制方法进行对比的形式呈现。具体的实验准备过程以及后续越障控制效果如下所示。

2.1实验过程

本文在电力机器人巡检线路上安装了防震锤、悬垂线夹、绝缘子串、耐张线夹等障碍物类别。在不同的气象条件下，对机器人进行自主越障控制。为了确保数据的多样性与真实性，本文模拟了防震锤的自然损坏，在线路上设置了扭曲变形的防震锤。将气球、塑料袋、风筝等异物悬挂在巡检线路上，采集有效障碍物数据集。在模拟实验场采集2 500张图片，防震锤500张，悬垂线夹400张，绝缘子串450张，耐张线夹850张，悬挂异物300张，能够满足本次实验需求。在此模拟线路上，自主越障最短路线如图1所示。

图1 电力巡检机器人自主越障控制示意

如图1所示，A为初始位置；B、C、D、E为障碍物位置；a、b、c、d、e、f、g、h、i为机组区、辅助区、锅炉区、电气控制区、变压器区、开关站区、电缆隧道区、自动化区域、安全设施等巡检区域；m、k、l、p、q、s、t、u、y为巡检机器人的随机位置；M为终止位置。A-a-b-c-de-f-g-h-i-M为最佳巡检路线，不仅能够躲避障碍，还能够缩短巡检时间。将障碍物数据集采用数据增广的方法进行增广，自主越障控制模型训练的计算机平台为CPU:i7-9900k;GPU:NVIDIA TITAN V 12G；操作系统：Ubuntu 18.04。在机器人实际应用中使用NVIDIA JETSONTX2开发板作为机载处理器，能够确保本次实验的有效性。

表1 实验结果

2.2实验结果

在上述实验条件下，本文随机选取出四个障碍物，判断机器人越障控制效果。其中，防震锤的位置为B点，悬垂线夹的位置为C点，绝缘子串的位置为D点，耐张线夹的位置为E点。由于电力巡检机器人的目标位置不同，机器人越障路线也随之变化。在其他条件均已知的情况下，对比了文献[1]基于改进人工势场法的越障控制性能、文献[2]基于蚁群算法融合改进动态窗口法的越障控制性能，以及本文设计的基于元强化学习的越障控制性能。实验结果如表1所示。

使用文献[1]方法之后，未躲避绝缘子串；绝缘子串、耐张线夹越障控制同样存在控制失误的问题。由此可见，使用该方法无法满足自主越障控制需求。使用文献[2]方法之后，耐张线夹躲避效果不良，存在一定的巡检失误问题。而使用本文方法之后，自主越障控制效果更佳，能够成功躲避障碍物，符合本文实验目的。

3、结束语

近些年来，电力运行的稳定性成为人们的研究重点。电力巡检作为保障电力稳定运行的关键环节，正在向智能化、自动化方向发展。因此，本文利用元强化学习，设计了电力巡检机器人自主越障控制方法，灵活调整机器人巡检路线，主动识别前往障碍物，从而完成自主越障控制的任务。通过元强化学习算法，优化了越障控制参数，机器人更适应越障控制的场景，满足电力巡检需求。

参考文献:

[1]黄绪勇,王欣,唐标,等.基于改进人工势场法的电力巡检机器人自动避障轨迹规划[J].机械与电子,2023,41(4):22-25+30.

[2]李忠坤,姜媛媛,刘子厚.基于蚁群算法融合改进动态窗口法的动态路径规划方法[J].佳木斯大学学报(自然科学版),2024,42(2):19-23.

[3]陈洋,史殿习,杨焕焕,等.面向未知动态环境的机器人搜救任务避障算法(英文)[J].

[4]张晓倩,黄磊,石雨婷,等.基于蚁群与DWA融合的移动机器人动态路径规划[J].组合机床与自动化加工技术,2024(1):9-13.

[5]庄红超,王柠,董凯伦,等.非完整约束大负重比六足机器人多机动态协同编队避障控制策略[J].机械工程学报,2024,60(1):284-295.

[6]高金喆,寇志伟,孔哲,等.基于激光雷达的牧场巡检机器人定位与建图算法设计[J].中国农机化学报,2024,45(4):222-230.

[7]李志飞,宿建波,陶熠昆,等.基于双距离场的机房巡检机器人自动导航路径提取方法分析[J].电子技术,2024,53(3):357-359.

[8]胡粒琪,曾维,陈才华,等.基于改进D*Lite-APF算法的巡检机器人路径规划[J].现代电子技术,2024,47(5):155-159.

[9]边艳华,解路,苗超.基于深度强化学习和大邻域搜索的矿山巡检机器人路径规划算法[J].金属矿山,2024(2):212-218.

[10]邓家利,刘劲涛,那腾及,等.发电厂巡检机器人导航控制算法研究[J].沈阳工程学院学报(自然科学版),2024,20(1):39-47.

基金资助:广东省教育科学规划课题:大学生科技社团促进高校校园创新文化的路径研究(项目编号:2023GXJK606);2023年度广东理工学院“创新强校工程”科研项目:变排量双向伺服泵在钣金设备上的应用研究(2023YBZK001);2023年度广东理工学院“质量工程”项目:PLC控制技术(YLKC202302);

文章来源:李耀贵.基于元强化学习的电力巡检机器人自主越障控制研究[J].科学技术创新,2024,(24):29-32.