高级检索

改进YOLOv8的矿井人员防护装备实时监测方法研究

张磊, 孙志鹏, 陶虹京, 郝尚凯, 燕倩如, 李熙尉

张 磊,孙志鹏,陶虹京,等. 改进YOLOv8的矿井人员防护装备实时监测方法研究[J]. 煤炭科学技术,2025,53(S1):354−365. DOI: 10.12438/cst.2024-0142
引用本文: 张 磊,孙志鹏,陶虹京,等. 改进YOLOv8的矿井人员防护装备实时监测方法研究[J]. 煤炭科学技术,2025,53(S1):354−365. DOI: 10.12438/cst.2024-0142
ZHANG Lei,SUN Zhipeng,TAO Hongjing,et al. Research on real-time monitoring method of mine personnel protective equipment with improved YOLOv8[J]. Coal Science and Technology,2025,53(S1):354−365. DOI: 10.12438/cst.2024-0142
Citation: ZHANG Lei,SUN Zhipeng,TAO Hongjing,et al. Research on real-time monitoring method of mine personnel protective equipment with improved YOLOv8[J]. Coal Science and Technology,2025,53(S1):354−365. DOI: 10.12438/cst.2024-0142

改进YOLOv8的矿井人员防护装备实时监测方法研究

基金项目: 

山西省基础研究计划资助项目(20210302124355)

详细信息
    作者简介:

    张磊: (1984—),男,山西大同人,副教授,硕士生导师。E-mail:dtblack84@163.com

  • 中图分类号: TD76

Research on real-time monitoring method of mine personnel protective equipment with improved YOLOv8

  • 摘要:

    穿戴个人防护装备是保障矿井人员作业安全的重要手段,开展矿井人员防护装备监测是煤矿安全管理的重要工作内容。煤矿井下环境较为复杂,视频监控易受到噪声、光照以及粉尘等因素干扰,导致现有的目标检测方法对矿井人员防护装备存在检测精度低、实时性差、模型复杂度高等问题。为此,提出一种改进YOLOv8的矿井人员防护装备实时监测方法,称为DBE-YOLO。DBE-YOLO模型首先在基准模型主干网络的CBS模块中结合可变形卷积(DCNv2)组成DBS模块,使卷积具有可变形能力,在采样时可以更贴近检测物体的真实形状和尺寸,更具有鲁棒性,有效提升了其对不同尺度目标的特征获取能力,有利于模型提取更多人员防护装备的特征信息,提高模型检测精度。其次在特征增强网络融合了加权双向特征金字塔机制(BiFPN),在多尺度特征融合过程中删除效率较低的特征传输节点,实现更高层次的融合,提高了对不同尺度特征的融合效率,同时BiFPN引入了一个可以学习的权值,有助于让网络学习不同输入特征的重要性。最后使用WIoUv3作为模型的损失函数,其通过动态分配梯度增益,重点关注普通锚框质量,在模型训练过程中减少了低质量锚框产生的有害梯度,进一步提升了模型性能。实验结果表明,DBE-YOLO模型在矿井人员防护装备监测中有着良好的效果,查准率、查全率、平均精度分别为93.1%、93.0%、95.8%,相较于基准模型分别提高0.8%,2.9%,2.9%,检测实时性提升到65 f·s−1,提高了8.3%,此外,参数量、浮点计算量、模型体积分别为2 M、6.6 G、4.4 MB,相较于原模型分别降低33.3%、18.5%、30.2%。使用煤矿现场作业视频监控对改进模型进行验证,其有效改善了漏检和误检问题,为提高矿井人员的作业安全提供了技术手段。

    Abstract:

    Wearing personal protective equipment is an important means to ensure the safety of mine personnel. It is an important task of mine safety management to carry out mine personnel protective equipment monitoring. Coal mine underground environment is more complex, video surveillance is susceptible to noise, light and dust and other factors interference, resulting in the existing target detection methods for mine personnel protective equipment there are low detection accuracy, poor real-time, model complexity and so on, proposed an improvement of YOLOv8 real-time monitoring of mine personnel protective equipment method, known as DBE-YOLO. The DBE-YOLO model is first combined with deformable Convolution (DCNv2) in the CBS module of the benchmark model backbone network to form a DBS module. Making convolution deformable, when sampling, it can more closely detect the true shape and size of the object, more robust, It effectively improves its feature acquisition ability for targets of different scales. It is beneficial for the model to extract more feature information of personnel protective equipment and improve the model detection. Secondly, the weighted bidirectional feature pyramid mechanism (BiFPN) is integrated in the feature enhancement network. In the process of multi-scale feature fusion, the less efficient feature transmission nodes are deleted. Achieve a higher level of integration, the fusion efficiency of different scale features is improved. BiFPN also introduces a weight that can be learned. Helps the network learn the importance of different input features. Finally, WIoUv3 is used as the loss function of the model. By dynamically distributing gradient gain, Focus on ordinary anchor frame quality, In the process of model training, the harmful gradient generated by low quality anchor frame is reduced. The model performance is further improved. The experimental results show that DBE-YOLO model has a good effect in the monitoring of mine personnel protective equipment. The accuracy, recall and average accuracy were 93.1%, 93.0% and 95.8%, respectively. Compared with the benchmark model, it was increased by 0.8%, 2.9% and 2.9% respectively. Detection real-time improved to 65 f·s−1, An increase of 8.3%, In addition, the number of parameters, floating point computation and model volume are 2 M, 6.6 G and 4.4 MB respectively. Compared with the original model, they were reduced by 33.3%, 18.5% and 30.2% respectively. The improved model is verified by using video surveillance of coal mine field operation. It effectively improves the problem of missing and false detection, It provides technical means for improving the operation safety of mine personnel.

  • 保障人员安全是煤矿安全生产的重要前提,安全帽、自救器、反光衣、定位器等个体防护装备(Personal Protective Equipment,PPE)[1]对矿井人员是不可或缺的。部分矿井人员由于未按照煤矿安全生产规定去正确穿戴防护装备,导致煤矿井下出现安全事故时更容易发生人员伤亡[2]。在传统的煤矿生产过程中,通过人工巡检方式对矿井防护装备穿戴情况进行检查,长时间的检查易造成监管者疲劳,很难对全过程进行有效监管[3]。因此,基于矿井条件对矿井人员防护装备实时监测的研究,对提高煤矿安全生产和推动煤矿智能化发展具有重要意义。

    随着科学技术的进步,基于深度学习的目标检测技术逐渐被应用于人脸识别、车牌检测、煤矸石检测等各个领域,其有效解决了传统人工监管效率低和成本高的问题。因此将目标检测技术应用于矿井人员防护装备监管中,同时结合视频监控手段,实现对矿井人员防护装备有效监测。煤矿安全生产与目标检测技术相结合,为矿井人员的生命安全提供有力保障。

    煤矿井下视频监控对防护装备进行监测时存在诸多问题,因矿井生产期间大量设备同时运行,造成噪声干扰;井下光照不均、煤粉附着在视频监控镜头表面导致的图像数据不清晰、对比度低;防护装备在监控图像中体积占比小,存在大量的背景干扰因素,使目标检测技术在对矿井人员防护装备监测时面临较高的挑战性。因此,应用目标检测技术时,需要对上述影响因素进行综合评判,从而提高目标检测模型精度和实时性,使该模型更加适用于复杂的矿井背景。

    使用目标检测技术对人员防护装备的监测在不同场景下有着广泛应用。刘晓慧等[4]将图像识别技术应用于焊接车间场景下的安全帽佩戴检测,使用Hu矩阵特征提取安全帽特征信息,通过BP神经网络和支持向量机(Support Vector Machine,SVM)对是否佩戴安全帽进行了分类。实验结果表明,SVM检测时间更短,对安全帽的识别率也有较大提升。张磊、李熙尉等[5]提出基于YOLOv5s的综采工作面人员检测算法,在综采工作面复杂的作业环境下,在YOLOv5s模型基础上引入路径聚合网络、深度可分离卷积以及替换损失函数,改进模型实现了对井下人员和安全帽目标的有效检测。代少升等[6]提出基于S3-YOLOv5s的矿井人员防护装备检测方法,通过引入尺度均衡特征金字塔卷积和注意力模块,提升了矿井人员防护装备的检测精度。程换新等[7]提出基于改进YOLOX-S的安全帽反光衣检测算法,简化了特征金字塔网络模块,使用GIoU损失函数,实现了对反光衣的有效检测。王媛彬等[8]提出改进YOLOv5s的矿井下安全帽佩戴检测算法,通过引入CBAM注意力机制、设计并添加了小目标检测层、引入EIoU损失函数以及使用轻量化网络ShuffleNetV2替换主干网络的方式,提升了模型对小目标的检测精度,有效缓解了安全帽的漏检和误检问题。虽然,上述研究通过不同改进方式提高了对人员防护装备的检测效果,但仍存在如下不足:不同防护装备体积和形状各不相同,而且图像易受不同背景、噪声等因素影响,导致人员防护装备检测模型出现准确率不高、误检和漏检率高的问题;重点关注模型在检测精度上的提升,忽略了模型轻量化问题,导致模型复杂度高,模型训练时间长,实时性能不理想。

    综上所述,笔者在YOLOv8n模型基础上进行改进,并提出一种轻量高效的DBE-YOLO模型。DBE-YOLO模型主要针对矿井背景下,实现对矿井人员穿戴防护装备的高效监测,主要贡献如下:

    1)在主干网络的CBS模块引入可变形卷积,构造了DBS模块,让传统卷积获得偏移量,进行特征提取时,卷积区域始终覆盖在物体形状的周围,提高了卷积对不同防护装备的适应力,解决传统卷积无法很好地提取不同防护装备特征信息的问题。可变形卷积通过在防护装备检测区域动态调整卷积核大小,提升模型在复杂矿井环境下对不同尺度防护装备特征的提取能力。

    2)为了解决不同防护装备特征融合效率低的问题,在特征增强网络融合了轻量化的加权双向特征金字塔机制,该机制删除了信息融合能力弱的边缘节点,简化了特征融合网络结构,降低了模型复杂性,使防护装备特征信息以跨尺度方式进行连接,将浅层特征和深层特征进行相互融合,实现了多路径的特征信息交互,得到了更加丰富的特征表达,提高了多尺度特征融合效率。

    3)YOLOv8在训练过程中会存在低质量锚框样本,使用边界框对低质量锚框样本回归时,会出现梯度下降情况,影响模型性能。笔者使用WIoUv3作为模型的定位回归损失函数,其包含一种动态非单调机制,设计了一种合理的梯度增益分配,减少了低质量锚框带来的有害梯度,降低了高质量锚框的竞争力,使模型更加关注普通锚框质量,进而提高网络模型的泛化能力和整体性能。

    当前基于深度学习的目标检测算法分为两阶段目标检测算法和单阶段目标检测算法。两阶段目标检测算法首先对输入图片生成多个候选框,然后对候选框进行分类。其典型算法有R-CNN[9]、Fast R-CNN[10]和Faster R-CNN[11]算法等,有较高的检测精度,但需要的存储空间大,检测速度较慢,模型复杂度高,不适用于对实时性要求较高的检测任务。单阶段目标检测算法通过牺牲小部分的检测精度换取了检测速度上的提升,拥有更好的实时性,方便应用到内存小,配置低的设备中。其典型算法有SSD[12]和YOLO[13]系列算法。

    YOLOv8模型是在YOLOv5模型的基础上提出的,分为YOLOv8l、YOLOv8 m、YOLOv8s和YOLOv8n共4个模型。其中YOLOv8n是复杂度最小的模型,其在保持较高检测精度的同时具有更快的推理速度,方便部署移动端和嵌入端设备。考虑到对矿井人员防护装备监测模型在矿井应用场景部署时要达到轻量化、检测精度高等要求,因此笔者选用了YOLOv8n作为基准模型。

    YOLOv8网络结构包括Input、Backbone、Neck和Prediction 4个部分。首先Backbone模块继续沿用CSP[14]思想进行特征传递,同时引入C2f模块替换YOLOv5模型中的C3模块,还保留了SPPF模块,在优化网络结构的同时,又可以获取丰富的梯度流信息。其次在Neck模块延续了FPN+PAN结构,实现多尺度特征融合能力。最后在Prediction部分,从原先的耦合头改为解耦头,引入Decoupled head将分类与回归分为2个单独结构,提高了模型收敛能力。YOLOv8使用的是Anchor Free网络,其能通过动态分配正负样本改善正负样本不均的问题。YOLOv8模型不但继承了YOLOv5模型的各项优点,还在此基础上进行调整和优化,提高了YOLOv8模型在不同场景下的性能。

    为了改善传统目标检测模型对矿井人员防护装备监测不佳问题,提出了DBE-YOLO模型,其从特征提取、特征增强和损失函数3个方面对模型进行优化。首先在主干网中的CBS模块引入可变形卷积DCNv2组成DBS模块,可以提取到更多不同尺度目标的特征信息,防止因为传统卷积对矿井人员防护装备特征提取不全导致的特征损失问题,提高模型在复杂环境下的特征提取能力。其次在特征增强模块融合BiFPN[15]机制,加快了不同尺度的特征融合速度,删除了特征融合能力较低的边缘节点,提高了特征融合效率,使模型进一步轻量化。由于不同输入特征的分辨率不同,因此其对最终输入的贡献也不相同,BiFPN机制为所有的输入特征设置一个权值,使网络能够学习不同输入特征的重要性。最后,使用WIoUv3为模型边界框损失函数,通过动态分配锚框,重点关注普通锚框质量,减少了低质量锚框带来的有害梯度,增强了模型性能,DBE-YOLO网络结构如图1所示。

    图  1  DBE-YOLO网络结构
    Figure  1.  DBE-YOLO network structure

    卷积神经网络在对特征图进行特征提取时,传统卷积的卷积核是矩形结构,如图2a所示,在特征图的特定位置进行特征提取。但是在矿井场景下,由于井下人员穿戴的防护装备形状大小不同,而且人员通常处于运动状态,防护装备不是始终固定在图像中某个位置。因此传统卷积很难适应目标间的位置变化,从而使模型的检测精度下降。可变形卷积网络[16]中的卷积核不同于传统矩形卷积核,其为每1个采集点都添加了1个偏移(offset),使卷积核可以学习不同的结构,如图2b所示。在图2b中,假设卷积核大小为3×3,那么采集点共有9个,每个采集点都被赋予了1个偏移量,因此卷积核的位置和大小都可以根据检测目标的特征动态调整结构。

    图  2  可变形卷积原理
    Figure  2.  Deformable convolution principle

    传统卷积在某一采样点$ {p_0} $的计算过程如下:

    $$ y\left( {{p_0}} \right) = \sum\limits_{{p_n} \in R} {w\left( {{p_n}} \right) \cdot x\left( {p_0} + {p_n} \right)} $$ (1)

    式中:$ R = \left\{ {\left( { - 1, - 1} \right),\left( { - 1,0} \right), \cdots ,\left( {0,1} \right),\left( {1,1} \right)} \right\} $;$ {p_n} $为$ R $中的位置元素;$ w\left( {{p_n}} \right) $为在$ {p_n} $位置的卷积核权重;$ x $为特征图;$ x\left( {{p_0} + {p_n}} \right) $为采样位置。

    DCNv2在某一采样点$ {p_0} $的计算过程如下:

    $$ y\left( {{p_0}} \right) = \sum\limits_{{p_n} \in R} {w\left( {{p_n}} \right) \cdot x\left( {{p_0} + {p_n} + \Delta {p_n}} \right)} $$ (2)

    其中$ \Delta {p_n} $为在传统卷积采样点上增加的偏移量。为进一步提高对检测目标的拟合能力,DCNv2对每个采样点添加了权重,输出特征值$ y\left( {{p_0}} \right) $的计算过程如下:

    $$ y\left( {{p_0}} \right) = \sum\limits_{{p_n} \in R} {w\left( {{p_n}} \right) \cdot x\left( {{p_0} + {p_n} + \Delta {p_n}} \right) \cdot \Delta {m_n}} $$ (3)

    其中$ \Delta {m_n} $为权重系数,可变形卷积的实现过程如图3所示,绿色箭头操作表示卷积学习偏移的过程,首先通过传统卷积对输入图像进行特征提取,然后使特征图进入offset field层获取卷积核采样点的偏置域,此时的通道数(Channel)为2N,让卷积核分别学习xy方向的偏移量,这样就得到了卷积核采样点的偏置矩阵,从而获取到偏移量$ \Delta {p_n} $,最后其使用双线性插值方法对特征图的卷积核结构进行优化。双线性插值计算方法如下:

    图  3  可变形卷积结构
    Figure  3.  Deformable convolution structure
    $$ x\left( p \right) = \sum\limits_q {G\left( {q,p} \right) \cdot x\left( q \right)} $$ (4)

    式中,$ p = {p_0} + {p_n} + \Delta {p_n} $为偏移区域的任意位置;$ q $为输入特征映射的空间位置;$ x\left( q \right) $为特征图中全部整数位置上点的取值;$ G\left( {q,p} \right) $为单个二维卷积核的双线性插值函数。图3中,输入图像中绿色框表示传统卷积操作对应的正方形采样区域,蓝色框表示可变形卷积对应的采样区域。

    将DCNv2思想与CBS模块结合,提出DBS模块,其结构如图4所示。输入特征图进入偏移掩码卷积(offset_mask),输出o1、o2和mask3个单元模块。其中o1和o2单元块经过拼接操作,mask单元块经过Sigmoid激活函数操作后,结合初始特征图输入到DCNv2中,其经过归一化和SiLu激活函数后输出特征图。

    图  4  DBS模块
    Figure  4.  DBS module

    在特征融合过程中,位于深层次的网络感受野大,特征表达能力更强,但缺点是特征图的分辨率低,细节不充分;位于浅层次的网络感受野小,特征表达弱,但优点是特征图分辨率高,细节充分,因此需要对不同层次的特征进行融合。YOLOv8使用FPN+PAN[17-18]结构对不同尺度特征进行融合,但PAN网络中的输入特征都是FPN网络处理过的,会造成原始特征丢失,导致特征融合效率低。因此,为解决矿井人员防护装备不同尺度特征融合效率低的问题,在特征增强网络中引入BiFPN机制。BiFPN机制是对FPN+PAN结构进行改进的,其结构是双向连接的,即自顶向下和自底向上,通过2个方向的特征信息传递,保留了更多的上下文信息,增强了网络特征信息传递效率。BiFPN机制删除了特征融合能力弱的边缘节点,实现了不同层次特征跨尺度交互,同时使模型实现进一步轻量化。BiFPN机制结构如图4所示,假设卷积神经网络有3~7级输入特征,其中第3级和第7级输入特征的网络路径在模块的边缘位置,其位于中间节点的信息融合能力较差。因此其删除了该路径上的2个中间节点,简化了双向特征网络结构。由于不同特征具有不同分辨率,其输出的贡献也不相同,BiFPN机制对每个输入都增加了额外的权值,让网络来学习不同输入特征的重要性。其加权特征融合计算方式如下:

    $$ O = \sum\limits_{i = 0} {\frac{{{\omega _i} {I_i}}}{{\varepsilon + \displaystyle\sum\limits_{j = 0} {{\omega _j}} }}} $$ (5)

    式中,$ {\omega _i} $和$ {\omega _j} $为不同的权重学习参数;$ \varepsilon = 0.0001 $;$ {I_i} $为输入特征。在图5中,第6级节点特征融合机制如下:

    图  5  BiFPN机制
    Figure  5.  BiFPN mechanism
    $$ P6\_td = Conv\left( {\frac{{{\omega _1} \cdot P6\_in + {\omega _2} \cdot R\left( {P7\_in} \right)}}{{{\omega _1} + {\omega _2} + \varepsilon }}} \right) $$ (6)
    $$ \begin{gathered} P6\_out = \\ Conv\left( {\frac{{{{\omega '}_{\text{1}}} \cdot P6\_in + {{\omega '}_2} \cdot P{\text{6\_}}td + {{\omega '}_3} \cdot R\left( {P5\_out} \right)}}{{{{\omega '}_1} + {{\omega '}_2} + {{\omega '}_3} + \varepsilon }}} \right) \end{gathered}$$ (7)

    式中,$ P6\_td $为第6级的中间特征;$P6\_in $为第6级的输入特征;$P7\_in $为第7级的输入特征;$ P6\_out $为第6级的输出特征;$ Conv $为卷积操作;$ R $为上采样或下采样操作;$ \omega ' $为权重学习参数。

    边界框损失函数通过矩形边界框去预测目标在整个图像中的位置,其中IoU代表检测目标预测框和实际框的重合程度,两者重合程度越大说明检测效果越好。YOLOv8使用了CIoU[19]损失函数,其主要考虑了3个因素:重叠面积,中心点和纵横比例,CIoU损失函数计算如下:

    $$ {L_{{\mathrm{CIOU}}}} = 1 - IoU + \frac{{{\rho ^2}\left( {x,{x_{gt}}} \right)}}{{{c^2}}} + \alpha \nu $$ (8)
    $$ \nu = \frac{4}{{{\pi ^2}}}{\left( {{\mathrm{arctan}}\frac{{{w^{gt}}}}{{{h^{gt}}}} - {\mathrm{arctan}}\frac{w}{h}} \right)^2} $$ (9)
    $$ \alpha {\text{ = }}\frac{\nu }{{\left( {{{1 - }}IoU} \right) + \nu }} $$ (10)

    式中,$ {\rho ^2}\left( {x,{x_{gt}}} \right) $为真实框$ X $和预测框$ {X^{gt}} $中心点的欧式距离;xgt为目标框中心的横坐标;$ c $为其外接矩形的对角线长度;$ \alpha \nu $为长宽比惩罚项;其中$ \alpha $为权重系数;$ \nu $为预测2个矩形框相对比例的系数;$ w $和$ h $为预测框的宽和高;$ {w^{gt}} $和$ {h^{gt}} $为实际框的宽和高;$ IoU $为两框的交并比。CIoU在DIoU[19]的基础上考虑到了预测框和真实框之间的纵横比,但CIoU使用复杂的函数计算,增加了模型训练时长。笔者引入动态非单调聚焦机制WIoUv3[20],其通过动态分配锚框,针对重叠度较高的锚框,降低其竞争性,更加关注普通锚框的质量,减少低质量锚框产生的有害梯度。如图6所示,蓝色框表示预测框,紫色框表示目标框,黑色框表示最小外接矩形框。WIoUv3在WIoUv1的基础上引入一个非单调聚焦系数,用来给不同质量的锚框分配梯度增益,WIoUv1的计算如下:

    图  6  WIoUv3示意
    Figure  6.  WIoUv3 schematic
    $$ {L_{{\mathrm{WIoUv1}}}} = {R_{{\mathrm{WIoU}}}} \times {L_{{\mathrm{IoU}}}} $$ (11)
    $$ {R_{{\mathrm{WIoU}}}} = {\mathrm{exp}}\left( {\frac{{{{\left( {x - {x_{gt}}} \right)}^2} + {{\left( {y - {y_{gt}}} \right)}^2}}}{{{{\left( {W_g^2 + H_g^2} \right)}^*}}}} \right) $$ (12)
    $$ {L_{{\mathrm{IoU}}}} = 1 - {\mathrm{IoU}} $$ (13)

    其中$ {R_{{\mathrm{WIoU}}}} \in \left[ {1,{\mathrm{e}}} \right) $用于放大普通质量锚框的$ {L_{{\mathrm{IoU}}}} $;ygt为目标框中心的纵坐标;$ {L_{{\mathrm{IoU}}}} \in \left[ {0,1} \right] $用于降低高质量锚框的$ {R_{{\mathrm{WIoU}}}} $;当锚框与目标框重叠率较高时,降低关注其中心点之间的距离。WIoUv3表达式如下:

    $$ {L_{{\mathrm{WIoUv3}}}} = \frac{\beta }{{\delta {\alpha ^{\beta - \delta }}}}{\mathrm{exp}}\left( {\frac{{{{\left( {x - {x_{gt}}} \right)}^2} + {{\left( {y - {y_{gt}}} \right)}^2}}}{{{{\left( {W_g^2 + H_g^2} \right)}^*}}}} \right){L_{{\mathrm{IoU}}}} $$ (14)
    $$ \beta = \frac{{L_{{\mathrm{IoU}}}^*}}{{\overline {{L_{{\mathrm{IoU}}}}} }} $$ (15)

    其中,$ {W_g} $和$ {H_g} $为预测框和目标框最小外接矩形的宽和高;$ L_{{\mathrm{IoU}}}^ * $为单调聚焦系数;$ \overline {{L_{{\mathrm{IoU}}}}} $为动态变量;$ \alpha $和$ \delta $为模型学习参数;$ \beta $为离群度,用来定义锚框的质量。

    实验平台的操作系统为Windows10,CPU为Intel(R) Core(TM) i7-9700K CPU @ 3.60 GHz 3.60 GHz,GPU为NVIDIA GeForce RTX 3060 Ti,运行内存为32 GB,深度学习框架为Pytorch 2.0.1,使用CUDA11.8进行计算加速。

    使用山西省忻州市磁窑沟煤矿视频监控进行图像采集,在煤矿作业场景中截取了500张矿井人员穿戴防护装备的图片,使用水平翻转、垂直翻转、自适应直方图均衡化[21]的增强方法,如图7所示,将数据集扩充至2000张。最后使用LabelImg软件进行人工标注,标注文件为txt格式,标注内容包含矿井人员、安全帽、反光衣、定位器、自救器5类。将数据集按照8∶1∶1划分为训练集、验证集和测试集,通过对矿井视频监控进行监测,来验证模型的有效性。

    图  7  数据集扩充方式
    Figure  7.  Data set extension method

    使用查准率(Precision)、查全率(Recall)、平均精度均值(mAP)、参数量(parameters)、浮点计算量(FLOPS)和检测实时性(FPS)作为模型评估指标,其中mAP@0.5表示IoU阈值为0.5时的所有类别平均精度均值。PrecisionRecallmAP@0.5、FPS计算公式如下:

    $$ Precision = \frac{{TP}}{{TP + FP}} $$ (16)
    $$ Recall = \frac{{TP}}{{TP + FN}} $$ (17)
    $$ AP = \int_0^1 {P\left( R \right){\mathrm{d}}R} $$ (18)
    $$ mAP = \frac{{\displaystyle\sum\limits_1^N {A{P_i}} }}{N} $$ (19)
    $$ FPS = \frac{{1\;000}}{{pr + inf + pos}} $$ (20)

    其中,$ TP $为被正确预测为正样本数量;$ FP $为被错误预测的负样本数量;$ FN $为被错误预测的正样本数量;$ AP $为P-R曲线的面积;$ mAP $为对所有分类目标的$ AP $取均值;$ N $为检测种类的数量;$ pr $为图像预处理时间;$ inf $为图像推理时间;$ pos $为图像后处理时间。

    为验证提出的3种改进策略有效性,对基准模型进行了消融实验,首先在主干网络引入可变形卷积组成DBS替换CBS模块用于特征提取,其次在特征增强模块融合BiFPN机制,最后使用WIoUv3作为模型损失函数。消融实验结果见表1。模型①单独引入DBS,平均精度均值提高1.7%,查准率、查全率和实时性略有下降,浮点计算量下降了7.4%,表明DBS模块有效提升了平均精度,但其新增了卷积层,导致实时性有所下降。模型②单独引入BiFPN机制,模型查准率、查全率和平均精度均值分别提高0.2%、0.4%、0.3%,实时性提高14.6%,表明BiFPN机制提高了特征融合效率,带来检测精度和实时性的双重提升。模型③单独引入WIoUv3损失函数,查准率、查全率和平均精度均值分别提高0.7%、0.5%、0.6%,实时性提高6.4%,表明其有效减少了低质量样本对模型性能的影响,提升了模型检测精度。模型④是在DBS的基础上引入BiFPN机制,可以看出查全率和平均精度均值在持续提升,表明两模块结合有效提高了检测精度并降低了模型复杂度。模型⑤是最终改进,同时结合DBS、BiFPN和WIoUv3 3个模块,模型性能达到最佳,其查准率、查全率、平均精度均值、实时性分别达到93.1%、93%、95.8%,65 f·s−1,在检测精度和实时性均优于原模型。

    表  1  消融实验
    Table  1.  Ablation experiment
    模型 DBS BiFPN WIoUv3 P% R% mAP@0.5% FPS/(f·s−1 Parameters/M FLOPS/G
    YOLOv8n 92.3 90.1 92.9 60.6 3.0 8.1
    92.2 89.8 94.6 55.2 3.0 7.5
    92.5 90.5 93.2 69.5 1.9 7.1
    93.0 90.6 93.5 64.5 3.0 8.1
    92.5 92.3 94.9 59.4 2.0 6.6
    93.1 93.0 95.8 65.0 2.0 6.6
    下载: 导出CSV 
    | 显示表格

    为验证改进模型的优越性,分别与YOLOv3-Tiny[22]、YOLOv5、YOLOv7-Tiny[23]、YOLOv8n、YOLOv8s模型在相同的实验环境下进行对比实验,实验结果见表2,同时绘制了不同模型的平均精度均值曲线,如图8所示。

    表  2  对比实验
    Table  2.  Comparison experiment
    模型 mAP@0.5% FPS/(f·s−1 Parameters/M FLOPS/G Size/MB
    YOLOv3-Tiny 90.4 68.9 8.7 12.9 17.5
    YOLOv5 94.1 58.3 20.9 47.9 42.3
    YOLOv7-Tiny 92.3 69.6 6.0 13.2 12.3
    YOLOv8s 91.0 67.1 11.1 28.4 22.6
    YOLOv8n 92.9 60.6 3.0 8.1 6.3
    DBE-YOLO(Ours) 95.8 65.0 2.0 6.6 4.4
    下载: 导出CSV 
    | 显示表格
    图  8  不同模型平均精度均值曲线对比
    Figure  8.  Comparison of average accuracy mean curves of different models

    通过对比表2中数据可得。YOLOv5参数量、浮点计算量和模型体积最大,而DBE-YOLO分别比其小90.4%、86.2%、89.5%,且DBE-YOLO平均精度均值最高,达到95.8%。虽然YOLOv3-Tiny、YOLOv7-Tiny、YOLOv8s的检测实时性略高于DBE-YOLO,但其平均精度均值较低,参数量、浮点计算量和模型体积较大,可能导致模型需要较高计算力的设备,不易在实际场景中部署模型。

    实验输入图像大小为640×640,实验迭代次数设置为500轮,Batch-size为32,权重衰减系数为0.0005、学习率取0.01,余弦退火超参数为0.1,优化器为SGD。模型训练过程中的损失函数曲线对比如图9所示。DBE-YOLO损失函数曲线较平稳,最终收敛到0.28附近,而YOLOv8n最终收敛到0.69附近,表明DBE-YOLO在训练过程中损失值更低,模型训练效果更理想。

    图  9  损失函数曲线对比
    Figure  9.  Comparison of loss function curves

    实验通过查准率、查全率和平均精度均值作为主要指标来衡量模型的检测性能。模型评价指标曲线对比如图10所示。图10a为查准率变化曲线,DBE-YOLO曲线相对波动较小,数值也相对较高,表明DBE-YOLO在模型查准率方面有着良好的性能。图10b为查全率变化曲线,在模型训练过程中,DBE-YOLO曲线数值较高,表明DBE-YOLO正确预测正样本的能力较强。图10c展示了平均精度均值曲线变化过程,DBE-YOLO的波动性更小,模型更加稳定,最终YOLOv8n的mAP@0.5趋于92.9%附近,DBE-YOLO的mAP@0.5趋于95.8%附近,通过与基准模型的各评价指标对比,表明DBE-YOLO性能更优,满足对矿井人员防护装备的有效监测。

    图  10  模型评价指标曲线对比
    Figure  10.  Comparison of model evaluation indicator curves

    为了研究DBE-YOLO模型对矿井人员(person)、安全帽(hat)、反光衣(coat)、定位器(locator)以及自救器(rescuer)5类目标的具体检测结果,使用DBE-YOLO和YOLOv8n在训练集上进行对比,2类模型在训练集上的P-R曲线如图11所示。P-R曲线中,不同类别曲线与横纵坐标围成的面积表示该类别的平均精度,DBE-YOLO模型中不同类别曲线与横纵坐标围成的面积均高于YOLOv8n,表明DBE-YOLO模型对井下人员防护装备平均检测精度更高,虽然DBE-YOLO在对井下人员的查准率略低于YOLOv8n,对安全帽的查准率与YOLOv8n持平,但是在其他3类防护装备的查准率均高于YOLOv8n,尤其是对体积最小的定位器(locator),DBE-YOLO较YOLOv8n查准率提升了14.6%,表明DBE-YOLO模型在矿井背景下有更好的监测性能。

    图  11  不同模型在训练集上的P-R曲线
    Figure  11.  P-R curves of different models on the training set

    受矿井环境的影响,大型计算机设备不易部署,可操作性差[24]。笔者提出的矿井人员防护装备实时监测模型拥有参数量少、浮点计算量少、模型体积小、对硬件要求低、经济成本低等优点,不同模型参数见表2,与基准模型相比,DBE-YOLO实现了进一步的精简,DBE-YOLO的参数量、浮点计算量、模型体积分别为2 M、6.6 G、4.4 MB,分别降低了33.3%、18.5%、30.2%,检测实时性达到65 f·s−1,提高了8.3%,满足对矿井视频监控的实时检测。

    为了更加直观的体现DBE-YOLO在煤矿视频监控中的监测效果,选用DBE-YOLO和YOLOv8n模型进行了对比,监测效果如图12所示。在图12a中基准模型出现了误检,将无关目标错误检测成了定位器,而DBE-YOLO没有出现误检问题,均正确检测出了矿井人员的防护装备。在图12b中,基准模型未能成功检测出定位器,出现了漏检问题,而DBE-YOLO有效检测出了体积较小定位器,图12c为噪声场景,DBE-YOLO置信度更高。由此可见,DBE-YOLO对矿井人员防护装备实现了有效检测,较好地解决了对矿井人员防护装备检测的漏检、误检等问题,同时也能够满足煤矿视频监控对实时性的需求。

    图  12  不同模型监测效果比对
    Figure  12.  Comparison of monitoring effects of different models

    1)提出了一种基于YOLOv8改进的矿井人员防护装备监测模型。该模型的查准率达到93.1%,查全率达到93%,平均精度均值达到95.8%,比基准模型分别提高0.8%,2.9%,2.9%,模型的参数量为2 M,浮点计算量为6.6 G,模型体积为4.4 MB。每秒传输帧数为65 f·s−1。该模型能够快速准确地监测矿井人员防护装备。

    2)提出了3种模型改进方法。在主干网络的CBS模块引入可变形卷积,构造了DBS模块,使模型增强对不同尺度防护装备特征提取能力。在特征增强网络融合了加权双向特征金字塔模块,简化了特征融合网络结构,降低了模型复杂度,提高了特征融合效率。使用WIoUv3作为模型的定位回归损失函数,减少了低质量样本带来的有害梯度,提高了模型性能。DBE-YOLO模型在平均精度均值和模型复杂度方面均优于YOLOv8。

    3)对井下现场视频监控进行监测,结果表明,DBE-YOLO模型能较好监测矿井人员防护装备,改善了漏检和误检问题,通过实验验证了该模型具有可行性,为提高矿井人员的作业安全提供了技术手段。

  • 图  1   DBE-YOLO网络结构

    Figure  1.   DBE-YOLO network structure

    图  2   可变形卷积原理

    Figure  2.   Deformable convolution principle

    图  3   可变形卷积结构

    Figure  3.   Deformable convolution structure

    图  4   DBS模块

    Figure  4.   DBS module

    图  5   BiFPN机制

    Figure  5.   BiFPN mechanism

    图  6   WIoUv3示意

    Figure  6.   WIoUv3 schematic

    图  7   数据集扩充方式

    Figure  7.   Data set extension method

    图  8   不同模型平均精度均值曲线对比

    Figure  8.   Comparison of average accuracy mean curves of different models

    图  9   损失函数曲线对比

    Figure  9.   Comparison of loss function curves

    图  10   模型评价指标曲线对比

    Figure  10.   Comparison of model evaluation indicator curves

    图  11   不同模型在训练集上的P-R曲线

    Figure  11.   P-R curves of different models on the training set

    图  12   不同模型监测效果比对

    Figure  12.   Comparison of monitoring effects of different models

    表  1   消融实验

    Table  1   Ablation experiment

    模型 DBS BiFPN WIoUv3 P% R% mAP@0.5% FPS/(f·s−1 Parameters/M FLOPS/G
    YOLOv8n 92.3 90.1 92.9 60.6 3.0 8.1
    92.2 89.8 94.6 55.2 3.0 7.5
    92.5 90.5 93.2 69.5 1.9 7.1
    93.0 90.6 93.5 64.5 3.0 8.1
    92.5 92.3 94.9 59.4 2.0 6.6
    93.1 93.0 95.8 65.0 2.0 6.6
    下载: 导出CSV

    表  2   对比实验

    Table  2   Comparison experiment

    模型 mAP@0.5% FPS/(f·s−1 Parameters/M FLOPS/G Size/MB
    YOLOv3-Tiny 90.4 68.9 8.7 12.9 17.5
    YOLOv5 94.1 58.3 20.9 47.9 42.3
    YOLOv7-Tiny 92.3 69.6 6.0 13.2 12.3
    YOLOv8s 91.0 67.1 11.1 28.4 22.6
    YOLOv8n 92.9 60.6 3.0 8.1 6.3
    DBE-YOLO(Ours) 95.8 65.0 2.0 6.6 4.4
    下载: 导出CSV
  • [1]

    NATH N D,BEHZADAN A H,PAAL S G. Deep learning for site safety:Real-time detection of personal protective equipment[J]. Automation in Construction,2020,112:103085. doi: 10.1016/j.autcon.2020.103085

    [2] 李华,王岩彬,益朋,等. 基于深度学习的复杂作业场景下安全帽识别研究[J]. 中国安全生产科学技术,2021,17(1):175−181.

    LI Hua,WANG Yanbin,YI Peng,et al. Research on recognition of safety helmets under complex operation scenes based on deep learning[J]. Journal of Safety Science and Technology,2021,17(1):175−181.

    [3] 陈一洲,杨锐,苏国锋,等. 应急装备资源分类及管理技术研究[J]. 中国安全科学学报,2014,24(7):166−171.

    CHEN Yizhou,YANG Rui,SU Guofeng,et al. Study on technologies for classifying and managing emergency equipment resources[J]. China Safety Science Journal,2014,24(7):166−171.

    [4] 刘晓慧,叶西宁. 肤色检测和Hu矩在安全帽识别中的应用[J]. 华东理工大学学报(自然科学版),2014,40(3):365−370.

    LIU Xiaohui,YE Xining. Skin color detection and hu moments in helmet recognition research[J]. Journal of East China University of Science and Technology (Natural Science Edition),2014,40(3):365−370.

    [5] 张磊,李熙尉,燕倩如,等. 基于改进YOLOv5s的综采工作面人员检测算法[J]. 中国安全科学学报,2023,33(7):82−89.

    ZHANG Lei,LI Xiwei,YAN Qianru,et al. Personnel detection algorithm in fully mechanized coal face based on improved YOLOv5s[J]. China Safety Science Journal,2023,33(7):82−89.

    [6] 代少升,曾奇,黄炼,等. 基于S3-YOLOv5s的矿井人员防护设备检测算法研究[J]. 半导体光电,2023,44(1):153−160.

    DAI Shaosheng,ZENG Qi,HUANG Lian,et al. Research on detection algorithm of mine personnel protection equipment based on S3-YOLOv5s[J]. Semiconductor Optoelectronics,2023,44(1):153−160.

    [7] 程换新,蒋泽芹,程力,等. 基于改进YOLOX-S的安全帽反光衣检测算法[J]. 电子测量技术,2022,45(6):130−135.

    CHENG Huanxin,JIANG Zeqin,CHENG Li,et al. Helmet and reflective clothing detection algorithm based on improved YOLOX-S[J]. Electronic Measurement Technology,2022,45(6):130−135.

    [8] 王媛彬,韦思雄,吴华英,等. 基于改进YOLOv5s的矿井下安全帽佩戴检测算法[J/OL]. (2024−03−23)[2024−04−23]. http://kns.cnki.net/KCMS/detail/detail.aspx?filename=MTKJ20240320006&dbname=CJFD&dbcode=CJFQ.

    WANG Yuanbin,WEI Sixiong,WU Huaying,et al. Detection algorithm of helmet wearing in underground mine based on improved YOLOv5s[J/OL]. (2024−03−23)[2024−04−23]. http://kns.cnki.net/KCMS/detail/detail.aspx?filename=MTKJ20240320006&dbname=CJFD&dbcode=CJFQ.

    [9]

    GIRSHICK R,DONAHUE J,DARRELL T,et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2014:580−587.

    [10]

    GIRSHICK R. Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision (ICCV). Piscataway,NJ:IEEE,2015:1440−1448.

    [11]

    REN S Q,HE K M,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137−1149. doi: 10.1109/TPAMI.2016.2577031

    [12]

    LIU W, ANGUELOV D, ERHAN D, et al. SSD: single shot MultiBox detector[C]//Proceedings of the 2016 European Conference on Computer Vision. Amsterdam: Springer International Publishing AG Cham, 2016: 21‒37.

    [13]

    REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:Unified,real-time object detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2016:779−788.

    [14]

    WANG C Y,MARK LIAO H Y,WU Y H,et al. CSPNet:A new backbone that can enhance learning capability of CNN[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). IEEE,2020:1571−1580.

    [15]

    TAN M X,PANG R M,LE Q V. EfficientDet:Scalable and efficient object detection[C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). IEEE,2020:10778−10787.

    [16]

    DAI J F,QI H Z,XIONG Y W,et al. Deformable convolutional networks[C]//2017 IEEE International Conference on Computer Vision (ICCV). Piscataway,NJ:IEEE,2017:764−773.

    [17]

    LIN T Y,DOLLÁR P,GIRSHICK R,et al. Feature pyramid networks for object detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2017:936−944.

    [18]

    LIU S,QI L,QIN H F,et al. Path aggregation network for instance segmentation[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE,2018:8759−8768.

    [19]

    ZHENG Z H,WANG P,LIU W,et al. Distance-IoU loss:Faster and better learning for bounding box regression[J]. Proceedings of the AAAI Conference on Artificial Intelligence,2020,34(7):12993−13000. doi: 10.1609/aaai.v34i07.6999

    [20]

    TONG Z J,CHEN Y H,XU Z W,et al. Wise-IoU:Bounding box regression loss with dynamic focusing mechanism[EB/OL]. (2023−11−07)[2024−01−24]. https://arxiv.org/abs/2301.10051v3.

    [21]

    PIZER S M,AMBURN E P,AUSTIN J D,et al. Adaptive histogram equalization and its variations[J]. Computer Vision,Graphics,and Image Processing,1987,39(3):355−368. doi: 10.1016/S0734-189X(87)80186-X

    [22]

    REDMON J,FARHADI A. YOLOv3:An incremental improvement[EB/OL]. (2018−04−08)[2024−01−24]. https://arxiv.org/abs/1804.02767v1.

    [23]

    WANG C Y,BOCHKOVSKIY A,LIAO H M. YOLOv7:Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors[C]//2023 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2023:7464−7475.

    [24] 吴利刚,陈乐,吕媛媛,等. 基于轻量化的输送带块煤实时监测方法[J]. 煤炭科学技术,2023,51(S2):285−293.

    WU Ligang,CHEN Le,LYU Yuanyuan,et al. A lightweight-based method for real-time monitoring of lump coal on conveyor belts[J]. Coal Science and Technology,2023,51(S2):285−293.

图(12)  /  表(2)
计量
  • 文章访问数:  32
  • HTML全文浏览量:  9
  • PDF下载量:  25
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-01-23
  • 网络出版日期:  2025-04-15
  • 刊出日期:  2025-05-31

目录

/

返回文章
返回