Research on collision avoidance path planning method for mining and anchoring equipment in narrow and restricted space of tunneling laneways
-
摘要:
针对煤矿井下狭长受限空间条件下掘锚设备协同作业过程中的碰撞检测与避碰路径规划难题,提出了基于深度强化学习 (Deep Reinforcement Learning,DRL) 的煤矿掘进巷道掘锚设备碰撞检测与避碰路径规划方法。利用激光雷达将巷道环境进行实时重建,在虚拟环境中建立掘进设备与钻锚设备的路径规划训练模型,在构建的掘进工作面虚拟三维场景下,采用混合层次包围盒法进行掘锚设备、钻锚设备以及掘进巷道间的虚拟碰撞检测。针对掘锚设备的运动特性,在SAC (Soft Actor-Critic) 算法的基础上引入多智能体经验共享机制,提出了MAES-SAC (Multi-Agent Experience Sharing) 算法,通过定义智能体的状态空间和动作空间,设计相应的奖惩机制,对智能体进行训练。仿真结果表明,相比于PPO算法和SAC算法,MAES-SAC算法平均奖励值分别提高了8.21%与7.43%,最高奖励值分别提高了0.25%与0.14%,达到最高奖励值的步数分别缩短与3.06%和6.63%,标准差分别减少了10.07%与6.99%。最后,搭建了掘锚设备避碰路径规划与碰撞感知系统实验平台,通过虚实运动同步性测试和掘锚设备避碰轨迹规划实验,验证了掘锚设备避碰路径规划的可行性和准确性,该方法为煤矿井下掘进设备群碰撞感知与协同避碰路径规划提供了新的思路,对推动煤矿井下掘进工作面智能化建设具有重要意义。
Abstract:Addressing the challenges of collision detection and collision avoidance path planning during the collaborative operation of mining and anchoring equipment in the narrow and restricted spaces of underground coal mines, this paper proposes a method for collision detection and collision avoidance path planning for mining and anchoring equipment in tunneling lanes based on Deep Reinforcement Learning (DRL). LiDAR is utilized for real-time environmental reconstruction of the tunnel, and a path planning training model for mining and drilling equipment is established in a virtual environment. In the constructed three-dimensional virtual scene of the mining face, a hybrid hierarchical bounding box method is applied for virtual collision detection among mining and anchoring equipment, drilling and anchoring equipment, and the tunnel itself. Considering the motion characteristics of the mining and anchoring equipment, this paper introduces a Multi-Agent Experience Sharing mechanism on the basis of the Soft Actor-Critic (SAC) algorithm, proposing the MAES-SAC algorithm. By defining the state space and action space of the agent and designing a corresponding reward and punishment mechanism, the agent is trained. Simulation results indicate that, compared to the PPO algorithm and the SAC algorithm, the MAES-SAC algorithm has improved the average reward value by 8.21% and 7.43% respectively, increased the maximum reward value by 0.25% and 0.14% respectively, reduced the steps to reach the maximum reward value by 3.06% and 6.63% respectively, and decreased the standard deviation by 10.07% and 6.99% respectively. Finally, an experimental platform for collision avoidance path planning and collision perception system for mining and anchoring equipment is constructed. Through virtual-physical motion synchronization testing and collision avoidance trajectory planning experiments, the feasibility and accuracy of the collision avoidance path planning for mining and anchoring equipment are verified. This method provides a new approach for collision perception and collaborative collision avoidance path planning of mining equipment groups in underground coal mines, which is of significant importance for promoting the intelligent construction of mining faces in underground coal mines.
-
0. 引 言
煤矿掘进工作面智能化建设是保障煤矿安全生产的重要环节,井下作业环境复杂且具有非结构化特点。掘锚设备协同作业过程中的避碰路径规划尤为关键,直接关系到机器人能否在狭长受限空间巷道内安全、高效地进行自主导航和掘进作业[1-3]。精准的掘进设备群路径规划技术有助于掘锚设备实时感知和适应多变的地质条件和巷道形态,从而在保障作业安全的同时,提高掘进作业的效率和巷道断面成形的质量。获取掘锚设备最优避碰路径规划,可以有效避免掘进设备群间的干涉和碰撞,确保掘进工作面设备群的协同作业。
由于这些巷道空间有限,机器人在执行任务时面临较高的碰撞风险。因此,开展针对掘锚设备、钻锚设备以及巷道壁的避碰路径规划研究尤为关键,有助于为掘锚设备提供安全可靠的协同作业路径规划。在众多碰撞检测方法中,图像空间法[4-5]、空间分解法[6]以及层次包围盒法[7-8]是3种经典的碰撞检测方法。图像空间法利用图像处理技术,能够有效地处理形状复杂且不规则物体,实现精确的碰撞检测,但可能受到设备数量众多和井下环境复杂等因素的影响。空间分解法通过将整个场景划分成多个小的子空间,有效降低了待检测对象的总数,从而提升了碰撞检测的效率。层次包围盒法通过构建一个层次化的包围盒结构,能够迅速且准确地识别出可能发生碰撞的物体,即便在地下空间狭小、环境复杂的条件下,也能保证碰撞检测的高效性。赵伟[9]提出了用于图像空间重建的快速碰撞检测算法,该算法通过优化检测过程,提高了碰撞检测的效率。张国飚等[10]提出了基于空间剖分的碰撞检测算法,通过快速确定可能碰撞的物体并使用空间分解法进行精确测试,提高了复杂场景下物体在高速运动时碰撞检测的效率问题。张宇等[11]针对航天员水下训练中的人机安全问题,提出了通过优化包围盒结构和检测流程,有效满足了超大作业空间的实时性和准确性需求。通过上述研究,碰撞检测可以显著提高多机器人协同作业的安全性和作业效率,对于提升煤矿掘进工作面设备群碰撞感知与协同作业的智能化水平具有重要意义。
在移动机器人路径规划相关领域,传统方法[12-13]如人工势场法和模糊逻辑法,其特点是简单直观且易于实现,但可能在复杂环境中遇到局部最优解的问题。图形学方法[14-15]如A*算法和栅格法,通过构建环境的图形表示来进行路径搜索,尽管能够提供精确的建模,但在处理大规模或复杂环境时可能会降低搜索效率。智能仿生学方法[16-17]如蚁群算法和粒子群优化算法,模仿自然界中的群体行为,展现出良好的自适应性和鲁棒性,但收敛速度可能较慢。经典强化学习方法[18]通过与环境的交互学习最优策略,能够适应动态变化的环境,但可能需要大量的样本和计算资源。深度强化学习方法[19]结合了深度学习和强化学习的优势,能够处理高维度的输入和复杂的决策空间,尤其适用于具有连续动作空间的场景,但训练成本高且稳定性和收敛性需要进一步优化。赵奉奎[20]改进了人工势场法,设计了一种智能汽车轨迹规划算法,通过考虑运动学约束和车道保持,优化了路径平滑度和适应性。王宇斌等[21]基于三角网格地图,提出了A*算法优化的四面体机器人路径规划方法,改进了机器人在深空陆巡探测中的高效避障能力。唐宏伟等[22]提出了一种改进的蚁群算法,针对路径规划中的盲目性、收敛速度慢等问题,通过优化启发信息模型、建立自适应更新机制和路径二次寻优,提升了物资运送小车路径规划的效率和鲁棒性。吴立辉等[23]提出了一种基于强化学习的防堵塞路径规划方法,利用导轨实时工况信息构建实时堵塞指标,结合Q值与历史通行经验,形成动作选择策略进行路径优化决策。尹旷等[24]提出了一种强化学习优化的移动机器人路径规划方法,通过栅格法建模和动态调整探索策略,实现了复杂环境中的快速自主导航和路径规划。黄昱洲等[25]提出了一种结合DDPG和SAC算法的无人小车路径规划方法,通过全局规划与局部避障,提高了路径规划的全局性和避障的动态性,同时加快了收敛速度。李辉等[26]提出了一种结合深度卷积神经网络和强化学习的改进算法,用于解决Q-learning在复杂环境下路径规划的难题。通过值函数近似法和四层深度卷积神经网络代替Q值表,有效解决了状态空间大时的维数灾难问题。目前,机器人路径规划研究主要集中在小型移动机器人的避障路径规划,对于掘进工作面大型复杂设备群间的避碰路径规划方面的研究相对较少。掘进设备群在狭长受限空间下掘进巷道中进行协同作业时,必须考虑掘锚设备的尺寸和形状,确保路径规划的可行性和安全性。
因此,笔者结合虚拟三维场景的掘锚设备碰撞检测和多智能体避碰路径规划等关键技术,提出一种基于MAES-SAC的掘进工作面掘锚设备避碰路径规划策略,为煤矿狭窄受限空间下的掘进作业提供理论基础。利用激光雷达技术实现巷道环境的实时三维重建,采用混合包围盒方法对掘锚设备之间、以及设备与巷道间进行虚拟碰撞检测。在构建的掘进工作面虚拟三维场景中,创建掘进设备和钻锚设备的多智能体路径规划训练模型,结合深度强化学习算法进行训练,获得最优的掘进设备避碰路径规划。该研究为狭长受限空间条件下的掘锚设备避碰决策控制提供了一种新思路,对于进一步提升煤矿井下作业的效率和安全性,促进掘进工作智能化建设具有重要意义。
1. 掘锚设备避碰路径规划总体方案
针对煤矿井下狭长受限空间巷道环境,提出一种集成激光雷达传感技术、Unity3D虚拟平台和MAES-SAC算法的掘锚设备路径规划总体方案。首先通过激光雷达实时扫描巷道,获取三维点云数据,经由MQTT协议传输至Unity3D平台,动态更新虚拟巷道模型,确保环境感知的精确性。之后,对掘进机器人和钻锚机器人建立物理运动模型,利用混合包围盒检测碰撞。通过实时进行位姿调整,避免掘锚设备间碰撞,保障掘进工作面的作业安全。如图1所示。
在SAC基础上,提出融合多智能体经验共享机制的MAES-SAC算法,优化了智能体探索能力,通过设定状态空间和动作空间及相应奖惩机制,训练智能体掌握最优路径规划策略。进而构建了基于Unity3D的虚拟掘进工作面场景,对路径规划策略进行测试和验证。该方法突破了传统路径规划局限,为掘进智能决策控制提供了一种新的思路。
2. 煤矿巷道掘锚设备避碰策略
分别对掘进机器人和钻锚机器人建立物理运动模型,结合虚拟现实技术,研究煤矿掘进工作面掘锚设备协同作业过程避障策略。利用激光雷达重建掘进面三维场景,使用包围盒碰撞检测方法,实现掘进机和锚杆钻机的虚拟碰撞检测。在掘进机和锚杆钻机协同作业过程中,当掘进机与锚杆钻机的包围盒发生接触或相交时,系统发出碰撞预警,矿井工作人员及时采取应对策略,掘进机和锚杆钻机停止作业。掘锚设备避碰轨迹规划问题需要考虑狭长受限空间下的掘进机与锚杆钻机、以及掘锚设备与巷道间碰撞约束,掘锚设备交会过程的虚拟碰撞检测如图2所示。
2.1 煤矿井下掘锚设备运动学分析
煤矿掘进工作面掘锚设备包括掘进机器人和钻锚机器人,这2种机器人的移动和转动都是通过左右轮履带驱动完成的。在掘进机器人行进过程中,如果其左右两侧的履带与地面之间没有侧向滑动,并且履带旋转速度与地面保持平行,那么可以将机器人的运动特性简化为二维运动学问题进行分析和求解。这里以掘进机器人运动过程为例,钻锚机器人同理。履带机器人运动学模型如图3所示。图中O0为机器人机身的中心点,X0O0Y0为机器人坐标系,O0Y0轴是机器人的中心线,O0X0轴与O0Y0轴相互垂直。假设机器人2条履带中心线之间宽度为L,左履带线速度为$ v_{l} $,右履带线速度为$ v_{r} $,机器人转向角为$ \theta_{c} $,图中机器人中心点$ \left(x_{c}, y_{c}\right) $为巷道平面坐标系XOY下的坐标,机器人运动瞬间的线速度为$ v $,角速度为$ \omega $,曲率半径为R,则机器人在任意时刻的位姿可表示为$ X=\left(x_{c}, y_{c}, \theta_{c}\right) $[27]。
根据图3中的几何关系可得左右履带轮线速度和机器人中心点速度的关系为
$$ \left\{\begin{array}{*{20}{c}}\upsilon_{\mathrm{l}}=\upsilon_0+\dfrac{L}{2}\omega \\ \upsilon_{\mathrm{r}}=\upsilon_0-\dfrac{L}{2}\omega\end{array}\right. $$ (1) 由公式(1)化简可得到机器人的角速度为
$$ \omega=\dfrac{\upsilon_{\mathrm{l}}-\upsilon_{\mathrm{r}}}{L} $$ (2) 机器人中心点$ \left(x_{c}, y_{c}\right) $在$ O_{0} Y_{0} $方向上的速度可以表示为
$$ {\upsilon _0} = \omega R $$ (3) 由公式(1)和公式(3)联立,可以求得机器人在转向时的曲率半径为
$$ R=\dfrac{L}{2}\dfrac{\upsilon_{\mathrm{l}}+\upsilon\mathrm{_r}}{\upsilon\mathrm{_l}-\upsilon_{\mathrm{r}}} $$ (4) 联立公式(2)和公式(4)可以用左右履带轮线速度表示机器人在$ O_{0} Y_{0} $方向上的速度为
$$ \upsilon_0=\omega R=\dfrac{\upsilon\mathrm{_l}-\upsilon_{\mathrm{r}}}{L}\dfrac{L}{2}\dfrac{\upsilon\mathrm{_l}+\upsilon_{\mathrm{r}}}{\upsilon\mathrm{_l}-\upsilon_{\mathrm{r}}}=\dfrac{\upsilon_{\mathrm{l}}+\upsilon_{\mathrm{r}}}{2} $$ (5) 由以上结论可以得到机器人运动时的速度和每一侧履带速度之间的关系为
$$ \left[\begin{array}{*{20}{c}}\upsilon \\ \omega\end{array}\right]=\left[\begin{array}{*{20}{c}}\dfrac{1}{2} & \dfrac{1}{2} \\ \dfrac{1}{L} & -\dfrac{1}{L}\end{array}\right]\left[\begin{array}{*{20}{c}}\upsilon\mathrm{_l} \\ \upsilon\mathrm{_r}\end{array}\right] $$ (6) 将其转换至坐标系XOY中,则掘进机器人的运动学方程为
$$ \dot X = \left[ {\begin{array}{*{20}{c}} {{{\dot x}_c}} \\ {{{\dot y}_c}} \\ {{{\dot \theta }_c}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\begin{array}{*{20}{c}} {\cos\; {\theta _c}} \\ {\sin\; {\theta _c}} \\ 0 \end{array}}&{\begin{array}{*{20}{c}} 0 \\ 0 \\ 1 \end{array}} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} \upsilon \\ \omega \end{array}} \right] $$ (7) 其中$ \dot{x}_{c} $是机器人在X方向的速度,$ \dot{y}_{c} $是在Y方向的速度, $ \dot{\theta}_{c} $是机器人的角速度。
2.2 掘进工作面虚拟三维场景构建
为实现物理世界到虚拟世界的映射,利用激光雷达建立掘进工作面虚拟场景。激光雷达能迅速而准确地获取目标坐标信息[28]。其定位原理是基于测量激光雷达与周围物体的距离,从而推导出自身位置。激光雷达通过光束控制系统发射激光束扫描环境,激光束经环境反射返回扫描仪,设备接收反射激光束,通过比较发射信号与接收信号的差异,计算出反射点与激光雷达的距离,多线激光雷达能输出扫描环境对应的3D点云数据。图4所示为掘进工作面重建过程。
在掘锚设备前端安装激光雷达,当机器人移动时,激光雷达能对周围的巷道环境进行三维扫描,获取点云数据。这些数据经过处理后,会被实时存储到数据库中,采用MQTT无线通信保证数据实时传入Unity3D平台中。在虚拟环境中,更新的数据先用来匹配坐标之后生成新的点云坐标,进而实现掘进工作面巷道模型的动态更新,为掘进面设备的碰撞检测提供数据支持。掘进工作面虚拟三维场景重建结果如图5 所示。
2.3 煤矿掘进工作面掘锚设备碰撞检测
掘进工作面的碰撞检测是实现煤矿设备智能化操控的关键技术,其中包括掘锚设备间的碰撞检测、掘锚设备与煤壁的碰撞检测。采用高效的层次包围盒算法来检测掘进工作面潜在的碰撞行为。层次包围盒法通过构建一个层次化的包围盒结构,将三维模型包裹在立体几何图形之中,只有当不同包围盒交叉时,系统才会判定模型发生碰撞。并且能够迅速且准确地识别出发生碰撞的物体,即便在地下空间狭小、环境复杂的条件下,也能保证碰撞检测的高效性。掘进工作面包围盒添加效果如图6 所示。
为了保证掘进设备群协同作业过程的安全性,分别对钻锚机器人和煤壁添加膨胀1.1倍的盒型碰撞器。由于掘进机器人外形较为复杂,所以对截割头和机身添加不同的包围盒。对于掘进机器人截割头部分,创建球形包围盒;对于掘锚设备机身部分,分别创建一个立方体包围盒。利用混合包围盒可以提高碰撞检测的准确性。在掘进工作面的设备移动过程中,碰撞检测系统通过监测不同物体包围盒之间的空间关系来判断潜在的碰撞事件。利用包围盒的几何特性,通过判断是否发生空间上的重叠,来预测实际物体之间的物理接触,通过实时跟踪包围盒的位置变化,系统能够快速识别出可能的碰撞风险。碰撞效果如图7所示,如果发生碰撞,碰撞部位变成红色,系统发出预警并及时调整掘锚设备移动路径,确保掘进设备群协同作业过程的安全性。
3. 基于多智能体的掘锚设备路径规划
掘进设备群需要在狭长受限空间内进行协同掘进作业,同时避免碰撞和减少设备损坏的风险。由于掘进面环境具有复杂性和动态变化特性,且掘进面设备均为复杂大型装备,要保证设备群协同作业的路径平滑、无突变,并确保作业中的安全性,传统的路径规划方法难以满足要求。因此,提出多智能体的掘进面设备群避碰路径规划方法,在SAC算法的基础上提出了融合多智能体经验共享机制的MAES-SAC算法。在同一环境中分别建立掘锚设备的智能体,设置策略网络和奖惩函数,并引入多智能体的协同学习机制加快训练速度,实现掘锚设备交替作业过程的动态避碰路径规划。
3.1 MAES-SAC算法
柔性动作-评价(Soft Actor-Critic,SAC) 算法是一种基于最大熵强化学习的算法,专为连续动作空间设计。通过结合长期奖励和熵正则化来促进探索,从而在复杂环境中学习有效的策略[29]。SAC算法的目标函数表达式如下:
$$ J\left({\textit{π}}\right)=\sum\limits_{t=0}^TE_{\left(\text{s}_t,a_t\right)\sim\rho_{{\textit{π}}}}\left[r\left(s_t,a_t\right)+\alpha H\left({\textit{π}}\left(\cdot|s_t\right)\right)\right] $$ (8) 式中:T为智能体与环境互动的总时间步数;$ \rho\mathit{_{{\textit{π}}}} $为在策略π下$ \left(s_{t}, a_{t}\right) $的分布;$ s_{t} $为t时刻输入的状态;$ a_{t} $为t时刻的动作;π为采取一定策略的概率;$ r\left(s_{t}, a_{t}\right) $为奖励值;$ \alpha $为超参数;$ H\left({\textit{π}}\left(\cdot\mid s_t\right)\right) $为熵值。
熵的计算式为
$$ H\left( {{\textit{π}} \left( { \cdot |{s_t}} \right)} \right) = {E_a}\left[ { - \log {\textit{π}} \left( { \cdot |{s_t}} \right)} \right] $$ (9) SAC算法中状态价值函数$ V_{ {{\mathrm{soft}} }}(s) $为
$$ V_{{\text{soft}}}^{}\left( {{s_t}} \right) = {E_{\left( {{{\text{s}}_t},{a_t}} \right)\sim {\textit{π}} }}\left[ {Q\left( {{s_t},{a_t}} \right) + \alpha H\left( {{\textit{π}} \left( { \cdot |{s_t}} \right)} \right)} \right] $$ (10) 动作价值函数$ Q_{\text {soft }}(s, a) $为
$$ Q_{{\text{soft}}}^{}\left( {{s_t},{a_t}} \right) = {E_{\left( {{{\text{s}}_t},{a_t}} \right)\sim {\textit{π}} }}\left[ {r\left( {{s_t},{a_t}} \right) + {\gamma _t}V\left( {{s_{t + 1}}} \right)} \right] $$ (11) 式中:$ \gamma_{t} $为在t时刻下的折扣因子;$ s_{t+1} $从经验回放池中采样获得。
SAC算法有5个网络,其中包括1个Actor网络,2个状态评价网络($ V(s) $Critic网络和$ V_{{\mathrm{target}}}(s) $Critic网络),2个动作评价网络($ Q_{\theta 1}(s, a) $和$ Q_{\theta 2}(s, a) $Critic网络)。SAC算法网络构架如图8所示。
在训练过程中,假设$ \theta $为$ Q(s, a) $的参数,$ \overline \theta $为$ V_{\text {tage }} $网络的参数,$ \phi $为Actor网络的参数,$ D $为经验回放池,则状态价值网络$ V_{\text {soft }}(s) $的损失函数为
$$ L_{\text{V}}^{}\left( \theta \right) = {E_{\left( {{{\text{s}}_t},{a_t}} \right)\sim D}}\left[ {\dfrac{1}{2}{{(V_\theta ^{}\left( {{s_t}} \right) - ({Q_\theta }\left( {{s_t},{a_t}} \right) - \log {{\textit{π}} _\phi }\left( { \cdot |{s_t}} \right)))}^2}} \right] $$ (12) 动作价值网络$ Q(s, a) $的损失函数为
$$ L_{\text{Q}}^{}\left( \theta \right) = {E_{\left( {{{\text{s}}_t},{a_t},{s_{t + 1}}} \right)\sim D}}\left[ {\dfrac{1}{2}{{(Q_\theta ^{}\left( {{s_t},{a_t}} \right) - (r\left( {{s_t},{a_t}} \right) + \gamma {V_{\bar \theta }}\left( {{s_{t + 1}}} \right)))}^2}} \right] $$ (13) Actor策略网络的损失函数为
$$ L_{\textit{π}} ^{}\left( \phi \right) = {E_{{a_t}\sim {\textit{π}} }}\left[ {\alpha \log {{\textit{π}} _\phi }\left( {{a_t}|{s_t}} \right) - Q_\theta ^{}\left( {{s_t},{a_t}} \right)} \right] $$ (14) 为了加快智能体训练速度和提高鲁棒性,引入了多智能体经验共享机制(Multi-Agent Experience Sharing, MAES)。在这个机制中,每个智能体不仅从自己的经验中学习,还可以从其他智能体的经验中学习。另外加入异步更新机制,在多智能体系统中是一种允许每个智能体独立更新其策略的方法,而不需要等待所有智能体同步完成,明显提高了系统的灵活性和效率。
假设有N个不同的场景,每个场景中有M个智能体。每个智能体$ a_{n, m} $(其中n=1,…,N 为场景索引,m=1,…,M 为智能体索引)都与一个环境交互。每个智能体$ a_{n, m} $收集的经验数据$ E_{n, m} $被存储在其本地经验回放缓冲区$ B_{n, m} $中。建立一个多智能体共享经验池$ S $,该经验池是一个集中存储所有智能体上传经验数据的缓冲区。将每个智能体$ a_{n, m} $和共享经验池$ S $连接,智能体可以选择是否将其更新的策略$ {\textit{π}}_{n, m} $和价值网络$ V_{n,m} $参数发送给其他智能体进行共享。其他智能体在接收到共享的更新信息后,可以选择是否接受这些更新,并将其合并到自己的网络中,以此实现网络更新。智能体$ a_{n, m} $在时间步t的策略更新可以表示为 $ {\textit{π}}_{n, m}^{(t)} $,价值网络更新为$ V_{n, m}^{(t)} $。当智能体$ a_{n, m} $接收到来自其他智能体$ a_{n^{\prime}, m^{\prime}} $的更新$ \boldsymbol{\theta}_{n^{\prime}, m^{\prime}} $时,可以选择性地合并这些更新到自己的网络中,这个过程可以表示为
$$ \theta _{n,m}^{(t + 1)} = \lambda \theta _{n,m}^{(t)} + (1 - \lambda ){\theta _{n',m'}} $$ (15) 其中$ \lambda $为一个权重系数,用于控制本地参数和接收到的参数在更新中的影响程度。在每个训练步骤,智能体$ a_{n, m} $从其本地经验回放缓冲区$ B_{n, m} $和共享经验池$ S $中采样经验$ E_{\text {sample }} $来进行学习:$ E_{\text {sample }} \sim B_{n, m} \cup S $。在掘进面工作环境中,移动设备主要由掘进机和钻锚机构成,所以每个环境中有2个智能体,如图9所示。
3.2 状态空间设计
设计掘进面智能体的状态空间时,需要综合考虑包括设备的位置信息、环境感知数据、目标点位置信息等多方面因素。在t时刻,每个Agent的状态为$ S_{i}^{t}=\left[M_{i}^{t}, N_{i}^{t}, T_{i}^{*}, O_{i}^{t}\right] $,其中$ M_{i}^{t} $为设备的位置信息,$ N_{i}^{t} $为环境信息,$ T_{i}^{*} $为设备状态信息,$ O_{i}^{\prime} $为目标点位置信息。
3.3 动作空间设计
针对的掘进面设备动作空间设计,主要考虑包括直线前进和后退、左右转向以及发生碰撞等动作。在t时刻,每个Agent的动作为$ \alpha_{i}^{\prime}=\left[V_{i}^t, \omega_{i}^{t}, P_{i}^{\prime}\right] $,其中$ v_{i}^t $为速度,$ \omega_{i}^{t} $为角速度,$ P_{i}^{d} $为碰撞。
3.4 奖惩函数设计
在深度强化学习中,奖励函数是定义智能体行为好坏的关键部分。奖励函数为智能体在每个时间步骤提供即时反馈,指导其学习过程,以便智能体找到最佳路径。奖惩函数设计为3部分:
1)设计奖励函数以鼓励智能体准确到达目标位置。当智能体成功抵达目标时,给予一个奖励$ R_{\text {goal }} $=1.0并终止当前回合。
2)通过包围盒检测机制来检验智能体的碰撞。为了确保安全,将煤壁和设备的包围盒尺寸增加了10%作为安全边界。若智能体触发碰撞,给予一个惩罚$ R\mathrm{_p}=-0.5 $。
3)为了促使Agent快速完成任务,对智能体的每一步动作后都给予一个旨在减少总步数的外部奖励$ R_{\text {step}}=-0.005 $。
综合以上奖惩机制,智能体的奖励函数可以表示为
$$ R = {R_{{\mathrm{goal}}}} \cdot {I_{{\mathrm{goal}}\_{\mathrm{reached}}}} + {R_{\mathrm{p}}} \cdot {I_{{\mathrm{collison}}}} + {R_{{\mathrm{step}}}} $$ (16) 其中,$ I $为指示函数,根据是否满足条件返回1或0。
3.5 训练结果分析
通过Socket通信协议,将Unity3D作为智能体交互客户端,并与作为算法计算服务器的Python相连接,实现数据实时交换,以便在Unity3D环境中训练智能体,并利用MAES-SAC算法在Python端进行策略学习和优化。MAES-SAC参数设置见表1。
表 1 MAES-SAC参数设置Table 1. Parameters setting of MAES-SAC参数 值 学习率 0.0003 折扣因子 0.99 批量大小 512 经验池容量 131072 网络层数 3 采样步数 100 最大步数 4000000 结果如图10所示,分别使用MAES-SAC、SAC、PPO 3种算法进行训练。PPO算法以其简单高效、易于实现而受到青睐,通过截断的概率比率更新来确保策略的稳定性,同时保持了良好的样本效率。SAC算法则以其在连续动作空间的卓越性能而著称,结合了熵正则化来鼓励探索,并通过Soft Actor-C ritic框架实现了策略和价值函数的协调优化。这2种算法都能够处理高维状态和动作空间,且在平衡探索与利用方面表现出色,使得其非常适合于煤矿机器人等在复杂环境中的路径规划任务。
图10a为累积奖励变化图。当累积奖励增加时,表明其选择正确动作,策略正在向更优的方向迭代。图10b为回合长度变化图,表示能够持续采取正确动作的步数,反映了策略的持久性和有效性。图10c为智能体损失值变化图。当损失值降低时,说明智能体的预测越来越准确,实际获得的奖励与理论奖励之间的差距在缩小,策略朝着正确方向更新。
由图10a可知,MAES-SAC算法累积奖励收敛最快,到达最高累计奖励的步数最少。由图10b可知,MAES-SAC算法在回合长度方面同样表现优异,随着训练迭代次数的增加,该算法下的智能体回合长度增加速度最快。由图10c可知,PPO算法和SAC算法损失值相差不大,而MAES-SAC算法的损失值下降较快,最先收敛。
表2通过对比PPO、SAC、MAES-SAC 3种不同算法的4项指标,包括平均奖励值、 最高奖励值、 达到最高奖励值步数、 鲁棒性进行算法的量化性能评价,其中鲁棒性是由算法所得奖励值的平均值和标准差组成。
表 2 3种算法指标分析Table 2. Analysis of performance metrics for three algorithms算法 平均奖励值 最高奖励值 达到最高奖励值步数 鲁棒性 PPO 161.4535 246.2547 3 620 000 161.4535 $ \pm $99.7839 SAC 162.6319 246.5295 3 560 000 162.6319 $ \pm $96.4815 MAES -SAC 174.7112 246.8631 3 380 000 174.7112 $ \pm $89.7364 由表2可以得出,MAES-SAC算法4项指标都要优于PPO算法和SAC算法,其中平均奖励值相比于PPO算法和SAC算法分别提高了8.21% 与7.43% ;最高奖励值分别提高了0.25%与0.14%;达到最高奖励值的步数分别缩短3.06%与6.63%;标准差分别减少了10.07%与6.99%。
3.6 仿真分析
本节将在相同的参数设置及地图环境下通过仿真实验对所提MAES-SAC算法与SAC算法进行对比,以验证所提算法的有效性。设置机器人起始点坐标为(1,1),目标点坐标为(12,13)。图11a为2种算法在无障碍狭长空间中的路径规划结果,图11b为2种算法在有障碍狭长空间中的路径规划结果。可以看出,MAES-SAC算法在以上2种情况下的路径规划结果都要优于SAC算法。
4. 实验验证与性能评估
4.1 掘锚设备协同移动实验环境搭建
构建了掘锚设备协同避碰路径规划实验平台,对掘锚设备的协同作业进行实验验证。系统软件部分包括设备运行监测、环境监测、位姿展示及远程控制功能,图12所示为掘锚设备软件系统。硬件平台由模拟掘进机器人和钻锚机器人的履带式机器人构成,并搭建模拟巷道环境,图13所示为掘锚设备硬件实验平台。
4.2 掘锚设备虚实运动同步性测试
为了测试和验证掘进机器人与钻锚机器人在物理与虚拟空间中的同步性,本实验通过软件系统的远程控制功能,向机器人发送动作指令,机器人传感器将收集的数据实时反馈至软件平台,用以动态调整虚拟环境中机器人的位姿,确保两者动作的一致性。
实验模拟巷道环境为150 cm×90 cm,掘进机器人和钻锚机器人的尺寸都为32 cm×27 cm。实验的坐标原点为巷道的左下角,巷道宽度方向设定为X轴,长度方向设定为Y轴。通过软件平台的远程控制模块,向掘进机器人和钻锚机器人发送指令,以实现对2台机器人动作的远程操控。在此过程中,机器人所搭载的传感器实时收集数据并回传至软件平台,该数据用于动态调整虚拟环境中机器人的位置和姿态。
为了评估机器人的同步执行情况,实时监测掘进机器人和钻锚机器人在执行路径规划任务时的位姿数据,以1 s为1个采样周期,收集26个不同位置点的X方向坐标、Y方向坐标和航向角数据,并进行对比分析,如图14和图15所示。由图14掘进机器人和图15钻锚机器人的运动轨迹图得到,掘锚设备在物理与虚拟空间的3项数据吻合度较高。
图16为掘锚机器人虚实空间位姿对比图。为了更全面地分析掘锚设备的工作状态,挑选机器人移动中的5个关键点的3项数据来进行对比。这5个点分别是开始位置,第1个中间位置,转向最大点,第2个中间位置,终止位置。通过表3和表4可以得到,掘进机器人X轴坐标误差控制在1.42 cm,Y轴为0.96 cm,航向角误差不超过0.7°,钻锚机器人X轴坐标误差控制在1.23 cm,Y轴为0.73 cm,航向角误差不超过0.6°,均符合虚实同步运动标准。
表 3 掘进机器人虚实数据对比Table 3. Comparison of virtual and physical data for tunneling robot序号 物理空间 虚拟空间 误差 X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) 1 22.43 32.15 0.05 22.06 32.46 0.18 0.37 0.31 0.13 2 27.62 60.36 6.42 27.05 59.87 6.71 0.57 0.49 0.29 3 33.55 75.67 11.74 34.21 76.36 11.15 0.66 0.69 0.59 4 39.82 91.38 6.21 41.24 92.34 6.83 1.42 0.96 0.62 5 45.17 119.74 0.45 44.76 119.25 0.27 0.41 0.49 0.18 表 4 钻锚机器人虚实数据对比Table 4. Comparison of virtual and physical data for drill-anchor robot序号 物理空间 虚拟空间 误差 X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) 1 67.48 16.53 ‒0.21 67.91 16.34 ‒0.15 0.43 0.19 0.06 2 61.79 51.62 ‒5.45 60.56 51.87 ‒5.83 1.23 0.25 0.38 3 56.45 67.31 ‒10.19 56.02 67.45 ‒9.78 0.43 0.14 0.41 4 50.28 83.94 ‒6.65 50.68 83.21 ‒6.12 0.40 0.73 0.53 5 45.27 120.63 ‒0.63 45.93 120.75 ‒0.37 0.76 0.12 0.26 4.3 掘锚设备路径规划功能验证及分析
实验中,掘进机器人的起始坐标定位于(22, 32),而其预定目标坐标则设定为(45, 120)。同样地,钻锚机器人的起始坐标为(67, 16),其目标坐标与掘进机器人相同为(45, 120)。分别采用MAES-SAC算法与SAC算法对掘锚设备进行避碰路径规划,结果如图17所示,采用MAES-SAC算法所规划出的路径在掘进机器人和钻锚机器人均显示出了良好的性能,路径的纵向移动距离显著减少,且整体路径的平滑度得到了显著提升。
为了全面评估所提出算法的性能,本研究进一步对比分析了MAES-SAC算法和SAC算法在起点到终点距离和终点到目标位置距离的统计数据,并增加障碍物对所规划的路径进行验证。图18所示为增加障碍物后2种算法路径规划结果。表5数据表明,MAES-SAC算法在路径长度上展现出了更短的优势,并且在路径终点的定位上精度更高,更接近目标位置,实现了最优路径的规划。相比之下,SAC算法在路径长度上的表现较长,且未能达到最优路径的标准。
表 5 路径结果对比Table 5. Path result comparison设备 算法 路径起点 路径终点 终点与目标位置距离/cm 路径长度/cm 掘进机器人 SAC (22,32) (44.46,120.61) 0.81 119.31 MAES-SAC (22,32) (45.17,119.74) 0.31 101.27 钻锚机器人 SAC (67,16) (45.58,119.14) 1.04 127.74 MAES-SAC (67,16) (45.27,120.63) 0.69 115.85 5. 结 论
1) 针对煤矿掘进工作面设备群协同作业过程的决策控制难题,融合深度强化学习技术和层次包围盒技术,提出了一种煤矿井下狭长受限空间下的掘锚设备避碰路径规划方法,实现了掘锚机器人在复杂巷道环境中的碰撞感知和避碰路径规划。
2) 在传统SAC算法基础上,融合多智能体经验共享机制,提出了一种MAES-SAC (Multi-Agent Experience Sharing) 掘锚设备路径规划方法,显著增强了多智能体在复杂环境中的探索能力。与传统的SAC算法和PPO算法相比,MAES-SAC算法在累积奖励、回合长度和损失值3个关键性能指标上均表现良好。
3) 为了验证掘锚设备避碰路径规划方法的可行性和有效性,构建了系统实验平台并对提出的基于MAES-SAC的避碰路径规划方法进行了实验验证。实验结果表明,MAES-SAC算法在路径长度和路径终点的定位精度上表现更好,实现了最优的掘锚设备多智能体避碰路径规划。
-
表 1 MAES-SAC参数设置
Table 1 Parameters setting of MAES-SAC
参数 值 学习率 0.0003 折扣因子 0.99 批量大小 512 经验池容量 131072 网络层数 3 采样步数 100 最大步数 4000000 表 2 3种算法指标分析
Table 2 Analysis of performance metrics for three algorithms
算法 平均奖励值 最高奖励值 达到最高奖励值步数 鲁棒性 PPO 161.4535 246.2547 3 620 000 161.4535 $ \pm $99.7839 SAC 162.6319 246.5295 3 560 000 162.6319 $ \pm $96.4815 MAES -SAC 174.7112 246.8631 3 380 000 174.7112 $ \pm $89.7364 表 3 掘进机器人虚实数据对比
Table 3 Comparison of virtual and physical data for tunneling robot
序号 物理空间 虚拟空间 误差 X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) 1 22.43 32.15 0.05 22.06 32.46 0.18 0.37 0.31 0.13 2 27.62 60.36 6.42 27.05 59.87 6.71 0.57 0.49 0.29 3 33.55 75.67 11.74 34.21 76.36 11.15 0.66 0.69 0.59 4 39.82 91.38 6.21 41.24 92.34 6.83 1.42 0.96 0.62 5 45.17 119.74 0.45 44.76 119.25 0.27 0.41 0.49 0.18 表 4 钻锚机器人虚实数据对比
Table 4 Comparison of virtual and physical data for drill-anchor robot
序号 物理空间 虚拟空间 误差 X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) X坐标/cm Y坐标/cm 航向角/(°) 1 67.48 16.53 ‒0.21 67.91 16.34 ‒0.15 0.43 0.19 0.06 2 61.79 51.62 ‒5.45 60.56 51.87 ‒5.83 1.23 0.25 0.38 3 56.45 67.31 ‒10.19 56.02 67.45 ‒9.78 0.43 0.14 0.41 4 50.28 83.94 ‒6.65 50.68 83.21 ‒6.12 0.40 0.73 0.53 5 45.27 120.63 ‒0.63 45.93 120.75 ‒0.37 0.76 0.12 0.26 表 5 路径结果对比
Table 5 Path result comparison
设备 算法 路径起点 路径终点 终点与目标位置距离/cm 路径长度/cm 掘进机器人 SAC (22,32) (44.46,120.61) 0.81 119.31 MAES-SAC (22,32) (45.17,119.74) 0.31 101.27 钻锚机器人 SAC (67,16) (45.58,119.14) 1.04 127.74 MAES-SAC (67,16) (45.27,120.63) 0.69 115.85 -
[1] 胡兴涛,朱涛,苏继敏,等. 煤矿巷道智能化掘进感知关键技术[J]. 煤炭学报,2021,46(7):2123−2135. HU Xingtao,ZHU Tao,SU Jimin,et al. Key technology of intelligent drivage perception in coal mine roadway[J]. Journal of China Coal Society,2021,46(7):2123−2135.
[2] 张旭辉,杨文娟,薛旭升,等. 煤矿远程智能掘进面临的挑战与研究进展[J]. 煤炭学报,2022,47(1):579−597. ZHANG Xuhui,YANG Wenjuan,XUE Xusheng,et al. Challenges and developing of the intelligent remote controlon roadheaders in coal mine[J]. Journal of China Coal Society,2022,47(1):579−597.
[3] 王国法,张建中,薛国华,等. 煤矿回采工作面智能地质保障技术进展与思考[J]. 煤田地质与勘探,2023,51(2):12−26. doi: 10.12363/issn.1001-1986.23.02.0062 WANG Guofa,ZHANG Jianzhong,XUE Guohua,et al. Progress and reflection of intelligent geological guarantee technology in coal mining face[J]. Coal Geology & Exploration,2023,51(2):12−26. doi: 10.12363/issn.1001-1986.23.02.0062
[4] HEO Y S,LEE K M,LEE S U. Robust stereo matching using adaptive normalized cross-correlation[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2011,33(4):807−822. doi: 10.1109/TPAMI.2010.136
[5] QU H Y,LI W H,ZHAO W. Human-vehicle collision detection algorithm based on image processing[J]. International Journal of Pattern Recognition and Artificial Intelligence,2020,34(8):2055015. doi: 10.1142/S0218001420550150
[6] 李建波,潘振宽,孙志军. 基于包围盒与空间分解的碰撞检测算法[J]. 计算机科学,2005,32(6):155−157. doi: 10.3969/j.issn.1002-137X.2005.06.045 LI Jianbo,PAN Zhenkuan,SUN Zhijun. The collision detection algorithm based on combination of buonding volumes and space division[J]. Computer Science,2005,32(6):155−157. doi: 10.3969/j.issn.1002-137X.2005.06.045
[7] GAN B Q,DONG Q P. An improved optimal algorithm for collision detection of hybrid hierarchical bounding box[J]. Evolutionary Intelligence,2022,15(4):2515−2527. doi: 10.1007/s12065-020-00559-6
[8] 林菲,邹玲,张聪. 基于混合层次包围盒的快速碰撞检测算法[J]. 计算机仿真,2023,40(9):454−457. doi: 10.3969/j.issn.1006-9348.2023.09.086 LIN Fei,ZOU Ling,ZHANG Cong. Fast collision detection algorithm based on hybrid hierarchical bounding box[J]. Computer Simulation,2023,40(9):454−457. doi: 10.3969/j.issn.1006-9348.2023.09.086
[9] 赵伟,李文辉. 空间图像重建的快速碰撞检测算法[J]. 吉林大学学报(工学版),2009,39(6):1631−1634. ZHAO Wei,LI Wenhui. Fast collision detection algorithm for space image reconstruction[J]. Journal of Jilin University (Engineering and Technology Edition),2009,39(6):1631−1634.
[10] 张国飚,张华,刘满禄,等. 基于空间剖分的碰撞检测算法研究[J]. 计算机工程与应用,2014,50(7):46−49,55. doi: 10.3778/j.issn.1002-8331.1307-0319 ZHANG Guobiao,ZHANG Hua,LIU Manlu,et al. Research of collision detection algorithm based on spatial subdivision[J]. Computer Engineering and Applications,2014,50(7):46−49,55. doi: 10.3778/j.issn.1002-8331.1307-0319
[11] 张宇,张得礼,张文奇,等. 基于混合层次包围盒的水下训练机械臂碰撞检测方法研究[J]. 载人航天,2022,28(5):627−636. ZHANG Yu,ZHANG Deli,ZHANG Wenqi,et al. Research on collision detection method of underwater training manipulator based on hybrid hierarchical bounding box[J]. Manned Spaceflight,2022,28(5):627−636.
[12] 张殿富,刘福. 基于人工势场法的路径规划方法研究及展望[J]. 计算机工程与科学,2013,35(6):88−95. doi: 10.3969/j.issn.1007-130X.2013.06.015 ZHANG Dianfu,LIU Fu. Research and development trend of path planning based on artificial potential field method[J]. Computer Engineering & Science,2013,35(6):88−95. doi: 10.3969/j.issn.1007-130X.2013.06.015
[13] 朱曼曼,杜煜,张永华,等. 基于模糊逻辑的智能车局部路径规划[J]. 北京联合大学学报,2016,30(4):29−32. ZHU Manman,DU Yu,ZHANG Yonghua,et al. Local path planning of smart car based on fuzzy logic method[J]. Journal of Beijing Union University,2016,30(4):29−32.
[14] 程向红,祁艺. 基于栅格法的室内指示路径规划算法[J]. 中国惯性技术学报,2018,26(2):236−240,267. CHENG Xianghong,QI Yi. Indoor indicator path planning algorithm based on grid method[J]. Journal of Chinese Inertial Technology,2018,26(2):236−240,267.
[15] 姜龙腾,迟瑞娟,马悦琦,等. 基于栅格法的农业机器人路径规划方法研究[J]. 农机化研究,2024,46(6):19−24. doi: 10.3969/j.issn.1003-188X.2024.06.003 JIANG Longteng,CHI Ruijuan,MA Yueqi,et al. Research on path planning method of agricultural robot based on grid method[J]. Journal of Agricultural Mechanization Research,2024,46(6):19−24. doi: 10.3969/j.issn.1003-188X.2024.06.003
[16] 苏子美,董红斌. 面向无人机路径规划的多目标粒子群优化算法[J]. 应用科技,2021,48(3):12−20,26. SU Zimei,DONG Hongbin. Multi-objective particle swarm optimization algorithm for UAV path planning[J]. Applied Science and Technology,2021,48(3):12−20,26.
[17] 刘璐,沈小伟,葛超,等. 基于改进蚁群算法的植保无人机路径规划[J]. 计算机仿真,2024,41(1):39−43. doi: 10.3969/j.issn.1006-9348.2024.01.009 LIU Lu,SHEN Xiaowei,GE Chao,et al. Path planning of plant protection UAV based on improved ant colony algorithm[J]. Computer Simulation,2024,41(1):39−43. doi: 10.3969/j.issn.1006-9348.2024.01.009
[18] 张琰,罗甜. 基于强化学习算法的路径规划技术分析[J]. 中国高新科技,2022(23):35−37. doi: 10.3969/j.issn.2096-4137.2022.23.013 ZHANG Yan,LUO Tian. Analysis of path planning technology based on reinforcement learning algorithm[J]. China High-Tech,2022(23):35−37. doi: 10.3969/j.issn.2096-4137.2022.23.013
[19] 许宏鑫,吴志周,梁韵逸. 基于强化学习的自动驾驶汽车路径规划方法研究综述[J]. 计算机应用研究,2023,40(11):3211−3217. XU Hongxin,WU Zhizhou,LIANG Yunyi. Review of research on path planning methods for autonomous vehicles based on reinforcement learning[J]. Application Research of Computers,2023,40(11):3211−3217.
[20] 赵奉奎,葛振,董锋威,等. 基于改进人工势场法的智能汽车轨迹规划算法研究[J]. 重庆交通大学学报(自然科学版),2022,41(11):153−160. doi: 10.3969/j.issn.1674-0696.2022.11.21 ZHAO Fengkui,GE Zhen,DONG Fengwei,et al. Intelligent vehicle trajectory planning algorithm based onImproved artificial potential field method[J]. Journal of Chongqing Jiaotong University (Natural Science),2022,41(11):153−160. doi: 10.3969/j.issn.1674-0696.2022.11.21
[21] 王宇斌,沈振军,王昱宸,等. 基于A*算法的四面体机器人路径规划研究[J]. 机械传动,2024,48(2):42−47. WANG Yubin,SHEN Zhenjun,WANG Yuchen,et al. Research on path planning for tetrahedral robots based on a* algorithm[J]. Journal of Mechanical Transmission,2024,48(2):42−47.
[22] 唐宏伟,高方坤,邓嘉鑫,等. 基于蚁群算法的物资运送小车路径规划研究[J]. 现代制造工程,2024(2):24−30,119. TANG Hongwei,GAO Fangkun,DENG Jiaxin,et al. Research on route planning of material transport vehicle based on ant colony algorithm[J]. Modern Manufacturing Engineering,2024(2):24−30,119.
[23] 吴立辉,李元生,周秀,等. 基于强化学习的整体式AMHS防堵塞路径规划方法[J]. 工业工程与管理,2023,28(6):119−130. WU Lihui,LI Yuansheng,ZHOU Xiu,et al. An anti-congestion path planning method based on reinforcement learning for unified AMHS[J]. Industrial Engineering and Management,2023,28(6):119−130.
[24] 尹旷,王红斌,方健,等. 基于强化学习的移动机器人路径规划优化[J]. 电子测量技术,2021,44(10):91−95. YIN Kuang,WANG Hongbin,FANG Jian,et al. Optimization of robot path planning based on reinforcement learning[J]. Electronic Measurement Technology,2021,44(10):91−95.
[25] 黄昱洲,王立松,秦小麟. 一种基于深度强化学习的无人小车双层路径规划方法[J]. 计算机科学,2023,50(1):194−204. doi: 10.11896/jsjkx.220500241 HUANG Yuzhou,WANG Lisong,QIN Xiaolin. Bi-level path planning method for unmanned vehicle based on deep reinforcement learning[J]. Computer Science,2023,50(1):194−204. doi: 10.11896/jsjkx.220500241
[26] 李辉,祁宇明. 一种复杂环境下基于深度强化学习的机器人路径规划方法[J]. 计算机应用研究,2020,37(S1):129−131. LI Hui,QI Yuming. Robot path planning method based on deep reinforcement learning in complex environment[J]. Application Research of Computers,2020,37(S1):129−131.
[27] 张旭辉,郑西利,杨文娟,等. 煤矿井下掘进机器人路径规划方法研究[J]. 煤田地质与勘探,2024,52(4):152−163. doi: 10.12363/issn.1001-1986.23.11.0748 ZHANG Xuhui,ZHENG Xili,YANG Wenjuan,et al. Research on path planning methods for underground roadheader robots[J]. Coal Geology & Exploration,2024,52(4):152−163. doi: 10.12363/issn.1001-1986.23.11.0748
[28] 张保,张安思,梁国强,等. 激光雷达室内定位技术研究及应用综述[J]. 激光杂志,2023,44(3):1−9. ZHANG Bao,ZHANG Ansi,LIANG Guoqiang,et al. Review of lidar indoor positioning technology research and application[J]. Laser Journal,2023,44(3):1−9.
[29] 李永迪,李彩虹,张耀玉,等. 基于改进SAC算法的移动机器人路径规划[J]. 计算机应用,2023,43(2):654−660. LI Yongdi,LI Caihong,ZHANG Yaoyu,et al. Mobile robot path planning based on improved SAC algorithm[J]. Journal of Computer Applications,2023,43(2):654−660.