摘要:目前,社区垃圾的严重堆积污染了大气和社区居民的生活环境,如何应对日益增长但收运效率低下的囤积垃圾成为了迫切需要解决的问题。而现有的垃圾清理方式不能够做到高效低碳,或者极大的耗费人力。本项目研发垃圾自动集运机器人的智能控制系统,并根据社区内的交通状况及老幼人群活动时空分布情况,利用强化学习方法为机器人规划高效、安全的作业路径,从而提高公共服务质量,营造绿色环保低碳社区环境。
加入收藏
1、研究背景与现状
随着时间的推移,我国社区生活垃圾的数量不断增加,这些垃圾中含有大量有毒物质,给空气和居民的健康、生活带来了严重的影响。因此,如何应对日益增长但收运效率低下的囤积垃圾成为了迫切需要解决的问题。经分析,主要原因为道路的通行压力大,垃圾收运的路径不合理以及收运人员缺少等,导致垃圾的收运不及时,造成了社区生活垃圾堆积严重。因而对社区生活垃圾进行有效、低碳化收集,减少环境二次污染,成为亟待解决的问题。
为实现社区垃圾的智能集运,智能机器人与路径的智慧规划系统逐渐被应用。而道路规划是机器人执行各类任务的前提条件,更是其走进现实的关键[1],更是研发智能机器人的重中之重,其目的便是要在机械设备的工作环境中找出一个从起点到终结的无冲突路线。依据机器人对周围环境的熟悉能力,目前的道路规划技术包括周围环境已有的整体性路线计划和周围环境不确定的部分路线计划,如人工势场法[2]、模糊逻辑算法、蚁群计算[3]、粒子群算法[4]、精神网络算法等。由于机器人在现实使用中必须解决某些突发性状况,所以必须引进一个自学习的体系促使其真正透过学会来达到主动避障。强化学习是一个采用“试错”方式的学习算法,机器人依靠反复试图行动来与周围环境互动,获取环境反馈的“激励”,进而确定最优化行动规划路径。其不但由于融合神经网络、智能控制及运筹学等计算或基础知识在理论和应用层面发展,而且也被愈来愈多地使用在机械设备的自控、操作及其智能调度等应用领域,在新一代人工智能领域方面已成了科学家们深入研究的重点。但上述方法更注重处理单任务问题,无法解决机器人执行多任务问题。
强化学习作为机器学习的核心部分,它将人类的知识与计算结果相结合,以提高模型的准确性,同时可以有效地收集、处理、预测外部环境的变量,从而更好地实现模型的优化,为模型的优化提供有效的参考。通过使用强化学习,可以将没有标记的数据集进行有效的管理,并从而提高模型的准确性。此外,这种技术还可以根据收到的反馈来调节模型的参数,使其保持稳定。
本项目基于强化学习算法,并考虑社区内交通风险分布,构建机器人的控制系统,为机器人执行社区内垃圾集运任务提供最优集运路径。从而使运输更加顺畅和高效,帮助智能机器人在规定时间内尽可能地经过更多的标志点,同时也可以避免重复同一地点或者绕路,节省时间和成本。其作为一种新型的人工智能规划系统,在提高垃圾集运效能比,避免社区的垃圾堆积和提高居民生活幸福指数的基础上,对于衍生的大数据采集,交通运输路径规划以及区域模块的最佳选址等同样存在相应的价值。
2、设计原理
2.1设计思路
2.1.1社区垃圾分布、交通环境数据的采集
(1)垃圾分布:深入社区调研社区内垃圾集运点的分布,以及所需集运频率。
(2)交通环境:通过社区行走观察、访谈问卷等方式调查社区内各区域块、各时段的人群分布密度和人群流量大小。
2.1.2搭建动态环境下集运机器人的路径控制模型和控制系统
分析社区调查数据,得到社区内的交通风险分布,并依此规划集运机器人的初始路径。基于强化学习算法,通过马尔科夫决策过程选择最佳路径,并依此构建机器人的路径控制系统,为机器人提供最佳垃圾集运路径。
2.1.3垃圾集运机器人的实用性检验
将垃圾集运机器人投入社区中进行一段时间的使用,期间观察并记录集运机器人的行驶路线以及垃圾集运频率,通过分析、计算的结果提高垃圾集运的效率和安全性。
2.2技术原理
Markov Decision Process (马尔科夫决策过程)马尔科夫决策过程由M=S,A,P,s0,R,Pr P,L定义,其中,S:有限状态集,A:有限动作集,P:S×A×S→[0,1]状态转移函数,s0:初始状态,R:S×A×S→R奖励函数,Pr P:原子命题有限集合,L:S→2Pr P:标记函数。
策略π是在给定状态下的动作分布,它定义了机器人的行为。如果机器人在状态S时遵循策略π,则π(a|s)=P(a|s)。在强化学习中,提出了一种无模型强化学习算法Q-learning。
Q-learning是一种基于值迭代来学习动作策略的强化学习算法。该算法利用Q函数寻找最优的动作-选择策略,其核心是不断更新一个由状态,动作和奖赏三者组成的表格(又称为Q矩阵)。Q矩阵中的Q值作为在某一个状态下采取动作的质量的度量,通过使用Q值度量方式来寻找每一个状态下所应该采取的最佳动作。随着程序的不断迭代,Q矩阵最终会趋于收敛。
算法中采用Q(s,a),即状态-动作对的值作为估计函数,它的学习过程是不断地通过公式迭代来使相邻Q值趋于一致。其基本形式如下:
式中:Q*(s,a)为状态s下采用动作a所得到的最优奖赏值的和;R(s,a)表示状态s下采用动作a所得到的即时奖赏值;∑T (s,a,st)max Q*(st,at)对应表示非即时奖赏值,即当前时刻之后采用不同动作at所获得的累计奖赏值;再定义V*(s)为在状态s下的最优值函数,则有:
Q-learning被应用于寻找一个最优的控制策略π*根据返回G。给定一个状态S在时间t,Gt定义为:
其中,rt十l十1是步骤t+l+1的奖励,γ∈[0,1]是折扣因子。
为了得到一个最优的方案,使用了贝尔曼方程。给定策略π,状态值函数Vπ(s)=Eπ(Gt|s)被定义为:
类似的,动作值函数QÁ(s,a)=EÁ(GÁ|s,a)的定义如下:
最优策略下的最优状态值函数VÁ(a)=max V (s)和最优行动值函数Q*(s,a)=maxπQπ(s,a)在策略π*情况下满足下列方程:
学习到的Q值被记录在Q表中,每个条目(Q值)对应一个状态-动作对。Q值由下式更新:
其中α和γ分别是学习率和折扣因子。
2.3功能描述
机器人静态环境下路径模型示例:
以下为集运机器人在接收集运需求信号后根据路径控制系统所提供路径进行垃圾集运时的几种行驶路径。以图1、图2中标注位置均由坐标说明,按先横轴后纵轴(横轴,纵轴)说明。
本项目中,我们建立社区平面坐标图(见图1),设深蓝色区域从左到右、从上到下依次为社区的建筑物栋1-6,如图中(1-8,1-2)、(11-18,1-2)、(1-8,4-5)、(11-18,4-5)、(1-8,7-8)、(11-18,7-8)六个区域所示。图中(4,3)、(15,3)、(4,6)、(15,6)、(4,9)、(15,9)为社区中垃圾点的位置,图中(0,0)为机器人起始位置,图中(19,9)为机器人终点位置,即垃圾集中处理点位置。而机器人在接收垃圾集运需求信号后根据路径智能控制系统所提供的路径进行垃圾集运任务:将所需集运的集运点进行集运,并送至垃圾集中处理点。
综合垃圾集运需求和社区风险区域,我们制作了以下机器人垃圾集运路径模型(见图2)。
其中,箭头所覆盖区域为机器人的行驶路径,箭头方向代表机器人的行驶过程。
机器人接收到所有垃圾集运点的需采集信号,在没有风险区域的情况下依据控制系统提供的路径进行垃圾集运任务。
3、创新特色
(1)现有集运路径优化目标主要侧重于经济、时间成本,本系统更加突出以自动应对道路环境为导向的优化目标,实现高效集运。
(2)所应用的强化学习算法对比其他算法具有动态环境路径规划情况下的优势,集运机器人通过对垃圾的多次集运后,可以依靠强化学习算法与道路动态环境进行交互,感知道路环境并对自己的集运路线再次进行修改优化,并自动选择出最高效安全的集运路线。
4、结束语
项目依据社区环境数据和强化学习算法,构建了ÁÁÂÃÄÅ社区垃圾集运机器人的路径规划控制系统。该智能技术正逐渐成为新的研究热点,受到业内人士的广泛关注。由于障碍物与移动机器人数目的增加,极大提高了自主路径规划的难度,这将是一个更加贴近现实的研究课题,也是移动机器人技术亟需拓展的领域。且此方法使垃圾集运路规划相比以往更加突出以自动应对道路环境为导向的优化目标,实现高效集运。不仅在垃圾集运路径规划具有实用价值,且在城市内物资等运输的路径规划方面也有一定价值,具有优良的市场前景和广泛的推广价值。
图1 社区平面坐标
图2 垃圾集运点的机器人自动集运路径
参考文献:
[1]赵英男.基于强化学习的路径规划问题研究[D].哈尔滨:哈尔滨工业大学,2017.
基金资助:2023年江苏省大学生创新创业训练计划项目:基于智慧路径规划技术的社区垃圾自动集运(202311117116Y);
文章来源:张昱韬,闫奇志,张炳坤,等.基于智慧路径规划技术的社区垃圾自动集运[J].科学技术创新,2024,(22):209-212.
分享:
人工智能文学是指以人工智能程序作为文学创作主体,通过模拟人类文学创作的思维模式,实现文学作品的自动或半自动化的生成过程。它设置了“人工文学数据库搭建——机器智能数据分析——文学作品自动半自动生成”的基本创作模式,借助“自动写作”和“辅助写作”两种形式使得数字时代文学发生了全新的变革。
2025-05-05火灾是一种常见而严重的灾害,给人们的生命安全带来了巨大的威胁,造成了巨大的财产损失。在高楼建筑中发生的火灾,由于建筑高度、人员密集度以及安全疏散难度的增加,往往会导致更为严重的后果。近几年来,我国平均每年发生火灾约30万起,如何有效地监测和预防高楼火灾成为了当今社会亟待解决的问题。
2025-01-20湖泊水位是衡量一个地区水资源状况的重 要指标,对于保障区域供水安全、防洪减灾以及 生态环境保护等方面具有重要意义。 准确预测 湖泊水位的变化趋势,可为相关部门制定合理的 决策提供科学依据。 然而,由于湖泊水位的变化 受到复杂多变的自然和人为因素的影响,传统的 定量预测模型在精度和适应性方面面临诸多 挑战[1-3] 。
2024-12-27人工智能(Artificial Intelligence,AI)技术是公认最有可能改变未来世界的颠覆性技术。AI在军事领域有广阔的应用前景,国内外已将AI不断应用到情报分析处理、目标识别监视、作战辅助决策、网络安全防护以及无人作战系统等智能装备中,在能力和可用性方面取得了巨大的飞跃[1]。
2024-12-03数据安全风险的存在,不仅威胁到个人隐私权益,影响企业发展,甚至关系到国家安全和社会稳定。在这一背景下,强化数据安全措施,构建全面的数据安全防护体系,已经成为迫切需要。这需要政府、企业和个人共同努力,通过立法、技术创新及提高公众的数据安全意识等手段,共同构建一个更加安全、健康的信息社会。
2024-12-03随着遥感卫星和高空平台的快速发展,高空间分辨率遥感图像的应用也变得越来越普遍[1]。遥感影像的语义分割在地貌特征的像素级分类方面具有重要意义,该技术已经在许多工业级图像中得到广泛应用[2-4]。例如,环境灾害监测[5]、土地利用与土地覆盖制图[6-7]、农业资源管理[8]、滑坡识别[9]和交通管理[10-12]等。
2024-12-035G技术以其高速率、低时延、大连接的特点,为各行各业带来了前所未有的发展机遇,但同时也面临着基站选址与优化的巨大挑战[3–4]。因此,深入研究5G基站选址决策与优化问题,对于提升5G网络覆盖质量、优化资源配置、提高通信效率具有重要意义。
2024-12-03随着科学技术的进步,各种协作机械臂和工业机械臂越来越受欢迎.为提高机械臂的智能性和自主性,机械臂自主抓取一直是机器人领域的研究热点之一[1-2].传统的协作机械臂需要操作者具备相关知识,通过编程或拖拽指令实现机械臂的抓取操作[3-4].
2024-12-03在气象观测、工农业、航空航天、食品和药品储存等制造领域,对湿度和温度有着严格要求,因此,对这两个参数的检测变得尤为重要。温湿度传感器近年来得到了大力发展和应用。传统的电子式温湿度传感器易受电磁干扰,灵敏度低,响应时间长,限制了其性能和应用范围。
2024-12-03基于机器学习的网络入侵检测系统(NIDS可以提高检测的准确性和效率,并增加系统对新型威胁的适应能力,鉴于这一优势,本文将深入分析机器学习在NIDS中的应用及其效能,探讨如何利用这一先进技术来增强网络安全防御。
2024-12-03人气:6149
人气:5130
人气:4890
人气:1889
人气:1640
我要评论
期刊名称:科学技术创新
期刊人气:1266
主管单位:黑龙江省科学技术协会
主办单位:黑龙江省科普事业中心
出版地方:黑龙江
专业分类:科学
国际刊号:黑龙江省科普事业中心
国内刊号:黑龙江省科学技术协会
邮发代号:14-269
创刊时间:1997年
发行周期:旬刊
期刊开本:16开
见刊时间:1-3个月
影响因子:0.000
影响因子:0.000
影响因子:0.467
影响因子:0.594
影响因子:0.000
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!