A lightweight personnel detection method for underground coal mines
-
摘要:
煤矿井下环境复杂,安全隐患较多,人员检测是保障煤矿安全生产和建设智慧矿山的重要内容。常用的检测算法不仅参数量大,对设备算力要求高,而且在煤矿低照度环境下的应用效果不理想。针对上述问题,基于YOLOv5提出一种用于煤矿井下的轻量级人员检测方法YOLOv5-CWG。首先,在骨干网络中嵌入坐标注意力机制(Coordinate Attention)自适应的调整特征图中每个通道的权重,增强特征的表达能力,提高模型在低照度、粉尘影响严重以及对比度低的不利条件下对待检测人员目标的关注度,更精确地定位和识别人员目标。其次,通过加权多尺度特征融合模块(Weighted multiscale feature fusion moule)引入可学习的权重赋予特征层不同的关注度,使网络有效融合浅层位置特征和高层语义信息,增强模型的信息提取能力,更好地区分目标区域和背景噪声,从而提高模型的抗干扰能力。增加1个P2层的检测头,提升较小目标的检测和定位精度。引入SIoU损失函数代替原损失函数加快模型收敛。最后,引入Ghost模块优化骨干网络,可以在不损失模型性能的前提下降低模型的参数量,提高检测速度,使得模型更容易部署在资源受限的设备上。结果表明,提出的YOLOv5-CWG算法在煤矿井下人员检测数据集(UMPDD)上的mAP达到了97.5%,相较于YOLOv5s提高了7.3%,计算量减少了27.6%,FPS提高了6.3。所提算法显著提高了煤矿井下人员检测精度,有效解决了亮度低和光照不均引起的人员检测困难问题。
Abstract:The underground environment of coal mines is complex and has more safety hazards. Personnel detection is an important part of ensuring safe production in coal mines and building smart mines. Commonly used detection algorithms have large parameter counts, high requirements on equipment arithmetic, and are not satisfactory for application in low illumination environments in coal mines. To address the above problems, a lightweight personnel detection method YOLOv5-CWG is proposed for underground coal mine based on YOLOv5.Firstly, the coordinate attention mechanism (Coordinate Attention) embedded in the backbone network adaptively adjusts the weights of each channel in the feature map to enhance the expression ability of the features. It improves the attention to the personnel target to be detected under the unfavorable conditions of low illumination, serious dust influence and low contrast, and locates and identifies the personnel target more accurately. Secondly, the weighted multiscale feature fusion module (Weighted multiscale feature fusion moule) introduces learnable weights to give different attention to the feature layer. This enables the network to effectively fuse shallow positional features and high-level semantic information to enhance the information extraction capability and better distinguish between target and interference, improving the anti-interference capability of the model. Add a P2 layer detection head to improve the detection and localization accuracy of smaller targets. Introduce SIoU instead of the original loss function to accelerate model convergence. Finally, the introduction of the Ghost module to optimize the backbone network can reduce the computational and parametric quantities of the model without losing the model performance, improve the detection speed, and make the model easier to be deployed on resource-constrained devices. Experimental results show that the proposed YOLOv5-CWG algorithm achieves 97.5% mAP on the Underground Mine Personnel Detection Dataset (UMPDD). Compared with YOLOv5s, the mAP is improved by 7.3%, the computation amount is reduced by 27.6%, and the FPS is improved by 6.3. The proposed algorithm significantly improves the accuracy of personnel detection in underground coal mines, and efficiently solves the problem of difficult personnel detection caused by low brightness and uneven illumination.
-
Keywords:
- object detection /
- YOLOv5 /
- attention mechanism /
- lightweight /
- feature fusion
-
0. 引 言
我国是世界上最大的煤炭生产国和消费国,在煤矿开采过程中,人员检测是保障煤矿安全生产的重要手段。煤矿巷道中亮度低,摄像机位置远,采集到的图像质量低,人员检测非常困难[1]。其次,为达到安全型设备的要求,必须尽量降低检测设备的功耗。对于布置在井下的检测设备,降低能耗的关键是降低模型算法的复杂度。同时,需要将检测信息实时传输到地面监控中心,因此低时延对井下人员检测至关重要。常用的检测方法难以满足井下人员检测的需求,因此,提出煤矿井下轻量级人员检测方法有重要意义。
目前,应用于煤矿井下的目标检测方法主要分为传统目标检测和基于深度学习的目标检测两大类。传统的人员检测方法,如SIFT特征提取算法[2]、HOG算法[3]和LBP算法[4]等,提取到的图像特征较为浅层,检测精度低。近年来,深度学习在目标检测领域快速发展,基于深度学习的目标检测方法能获取更抽象和更丰富的图像特征,识别效果更好,逐步代替了传统算法。基于深度学习的目标检测方法可分为二阶段网络和单阶段网络。二阶段网络是先生成候选框,再进行目标检测,例如R-CNN系列[5-7]、RFCN[8]、Mask-RCNN[9]等。尽管这类算法具有很高的检测精度,但计算时间长,实时性差,很难在嵌入式设备中得到推广。单阶段网络如YOLO系列[10-12]和SSD[13]可以直接检测并框选位置,检测速度高,实时性好。张明臻[14]基于YOLOv3网络提出一种改进的目标检测框架。采用Gamma变换、加权对数变换和限制对比度的自适应直方图均衡进行图像增强,并将残差Dense模块嵌入到骨干网络中,避免梯度爆炸,大幅提高了检测精度。魏力等[15]结合注意力机制,提出一种改进网络模型DCAN用于人员检测。通过在骨干网络中加入CAM注意力机制抑制背景噪声,一定程度上提高了难识别样本的检测精度。上述方法虽然检测精度较高,但模型参数多,计算量大,实时性差,严重影响识别速率。针对此问题,张翼翔等[16]以CenterNet为骨干网络,将轻量化网络GhostNet与特征金字塔结合,大幅度减少了参数量,提高了检测速度。程德强等[17]以改进的残差结构和交叉学习机制为基础,提出了一种融合残差信息的轻量级网络用于矿井目标检测,有效解决了实时性差的问题,提高了检测速度,但是牺牲了检测精度。上述研究在煤矿井下人员的检测速度与精度上难以做到良好平衡,且未综合考虑煤矿井下光照条件差和模型较大难以部署的问题。
针对上述问题,笔者基于YOLOv5提出一种轻量级检测方法YOLOv5-CWG。首先,在骨干网络中嵌入坐标注意力机制增强模型在低照度条件下对目标的关注度;其次,通过加权多尺度特征融合和增加检测头,解决小目标人员漏检以及定位不准确的问题;同时,引入SIoU (Scale-Invariant IoU Loss)加快模型收敛;最后,在骨干网络中引入Ghost模块减少计算量和参数量,提高模型的检测速度。
1. YOLOv5-CWG模型
YOLO系列属于单阶段的目标检测算法,经过一系列的版本迭代,检测精度与速度有了极大的提升。YOLOv5包括s、m、l、x版本,不同版本的网络结构一样,仅在网络深度和宽度上存在差异。YOLOv5结构如图1所示。主要由输入端(Input)、骨干网络(Backbone)、颈部层(Neck)和检测头(Detect)组成。输入端在特征提取前对图片进行数据增强。骨干网络通过堆叠卷积层、多次扩张通道数提取目标的特征信息,主要由Focus、Conv、C3、SPP 4个模块堆叠组成。颈部层提取骨干网络中不同尺度的特征用于检测。检测部分利用得到的不同尺度特征信息进行目标识别以及回归框的标定。
提出的YOLOv5-CWG模型如图2所示:① 在骨干网络的卷积模块中引入坐标注意力机制[18](Coordinate Attention,CA),增强模型对检测目标的关注度,提升模型的检测精度。② 针对煤矿井下人员漏检以及定位不准确的问题,增加特征融合模块的深度,FPS融合P2层的特征,获取更丰富的浅层位置信息。借鉴双向加权特征金字塔网络结构[19],增加跨层跳跃连接。采用加权特征融合,对不同输入赋予不同权重,使模型侧重学习关键特征信息,忽略次要信息。③ 改进了损失函数,原YOLOv5采用CIoU(Complete IoU Loss)[20]作为边界框的回归损失函数,模型收敛慢且效率低。笔者采用SIOU[21]作为损失函数,引入期望回归之间的向量夹角作为损失度量,提高模型检测精度与收敛速度。④ 在骨干网络中嵌入Ghost模块[22],降低参数量,缩小模型体积,保证模型轻量化,提高模型的性能。
1.1 CA注意力机制
为解决煤矿井下背景复杂、光照低、待检测目标偏小等因素引起的人员显著度低的问题,在YOLOv5骨干网络中嵌入注意力模块提高模型对难辨识人员的关注度。大多算法引入了SE[23]、CBAM[24]等注意力机制增强模型的特征提取能力。如陈海燕等[25]考虑到目标在图像中所占比例较低,特征不明显,容易受到噪声的影响,提出了一种基于通道−空间注意力机制的目标检测方法,有效提升了目标检测效果。但是,SE注意力机制仅考虑了通道间的信息,缺乏对位置信息的关注。CBAM注意力机制在空间方向计算注意力分布,仅能提取局部关系,缺乏对长期依赖关系的特征提取。
为解决上述问题,引入了坐标注意力机制CA提高模型检测精度。CA注意力机制同时兼顾了通道和空间特征,弥补了SE和CBAM注意力机制的不足。CA注意力模块如图3所示。假设输入图像尺寸为C×H×W,CA注意力机制在宽度和高度2个方向进行池化,获得水平方向特征和垂直方向特征。Concat拼接水平方向和垂直方向的特征图后,采用$ 1 \times 1 $卷积进行降维,并利用BN层和Sigmoid函数进行非线性化处理。特征图沿着2个方向分解张量,通过$ 1 \times 1 $卷积核在水平方向和垂直方向升维,再经过Sigmoid激活函数进行非线性处理后,得到垂直方向和水平方向上的权重。最后,将输入图像与得到的垂直方向和水平方向上的权重相乘进行加权计算,得到带有注意力权重的特征图。
改进后的骨干网络如图4所示,在原C3模块中加入CA注意力机制提高模型对人员目标的关注度,增强网络特征的表达能力,有助于提高井下复杂环境中模型对人员目标的关注度,更精确地定位和识别人员目标。
1.2 加权特征融合模块
煤矿井下人员目标在图像中占比较小,现有的目标检测模型在特征提取时的降采样较大,细节信息损失较多。YOLOv5颈部层采用FPN+PAN结构融合不同尺度的特征信息,如图5所示。虽然有效融合了浅层位置特征和高层语义信息,但在融合多个输入特征时,采用直接拼接方法,未考虑不同尺度特征的权重不同。基于上述,设计了加权特征融合模块(Weighted multiscale feature fusion moule, WMFFM),如图6所示。改进如下:
1)增加跨层连接。增加2条跨层特征连接,融合更多的特征信息。
2)加深特征金字塔深度,增加P2层和检测头。深层特征图经过多次卷积,虽然包含丰富的语义信息,但目标位置信息丢失较为严重。浅层特征图的分辨率较高,包含的目标位置信息更加丰富。针对矿井人员目标较小的问题,融合浅层位置特征信息更有利于煤矿井下人员检测。
3)加权特征融合。引入可学习的权重赋予特征层不同的关注度,使网络侧重于学习重要特征,减少次要和无关信息的关注,更好地区分目标和干扰,从而提高模型的抗干扰能力。计算公式为
$$ O = \sum\limits_i^{} {\frac{{{w_i}}}{{\varepsilon + \displaystyle\sum_j {{w_j}} }}} {I_i} $$ (1) 其中,$ {I_i} $为输入特征图;$ {w_i} $为可学习的权重系数;$ \varepsilon $为极小值。例如,加权特征融合网络的第3层计算过程为
$$ P_3^{{\mathrm{out}}} = {\mathrm{Conv}}\left[\frac{{{w_1} P_3^{{\mathrm{in}}} + {w_2} P_3^{{\mathrm{td}}} + {w_3} {\mathrm{Resize}}(P_2^{{\mathrm{out}}})}}{{{w_1} + {w_2} + {w_3} + \varepsilon }}\right] $$ (2) 其中,$ { {\mathrm{Conv}} } $表示卷积、批量正则化以及非线性激活的组合操作;$ { {\mathrm{Resize}} } $表示对输入特征图进行下采样。
1.3 损失函数
YOLOv5算法采用二进制交叉熵(BCE Loss)作为目标得分和分类概率的损失函数,CIoU Loss作为边界框的回归损失函数。CIoU综合考虑了检测框与真实框的重叠面积、中心点距离等,但未考虑预测边界框与真实框方向不匹配的问题,导致模型收敛慢且效率低。CIoU损失函数为
$$ {\mathrm{CIoU}} = {\mathrm{IoU}} - \frac{{{\rho ^2}(b,{b^{{\mathrm{gt}}}})}}{{{c^2}}} - av $$ (3) $$ {L_{{\mathrm{CIoU}}}} = 1 - {\mathrm{CIoU}} $$ (4) 其中,$ {\rho ^2}(b,{b^{{\mathrm{gt}}}}) $为检测框$b$与真实框${b^{{\mathrm{gt}}}}$之间的欧式距离;$ c $为两框之间最小外接矩形的对角线距离;$ a $为权衡参数;$ v $用于衡量长宽比一致性。
为进一步提高矿井人员预测框的回归速度和检测精度,损失函数采用SIoU代替CIoU。SIoU重新定义了惩罚项,引入期望回归之间的向量夹角作为损失度量,有效降低了损失的自由度,预测框更收敛快,进一步提高了模型检测精度与收敛速度。SIoU引入了4个成本函数:角度成本$ \Lambda $、距离成本$ \Delta $、形状成本$ \Omega $以及IoU成本。
角度成本$\Lambda $计算过程为
$$ \Lambda = 1 - 2 {\sin ^2}\left[\arcsin (x) - \frac{\pi }{4}\right] $$ (5) $$ \left\{ {\begin{array}{*{20}{l}} {x = \dfrac{{{C_{\mathrm{h}}}}}{\sigma }} \\ {\sigma = \sqrt {{{\left( {b_{{\mathrm{cx}}}^{{\mathrm{gt}}} - {b_{{\mathrm{cx}}}}} \right)}^2} + {{\left( {b_{{\mathrm{cy}}}^{{\mathrm{gt}}} - {b_{{\mathrm{cy}}}}} \right)}^2}} } \\ {{C_{\mathrm{h}}} = \max \left( {b_{{\mathrm{cy}}}^{{\mathrm{gt}}} - {b_{{\mathrm{cy}}}}} \right) - \min \left( {b_{{\mathrm{cy}}}^{{\mathrm{gt}}} - {b_{{\mathrm{cy}}}}} \right)} \end{array}} \right. $$ (6) 其中,$\sigma $为预测框和真实框的中心点距离;${C_{\mathrm{h}}}$为预测框和真实框的高度差;${b_{{\mathrm{cx}}}}$和${b_{{\mathrm{cy}}}}$为预测框的中心坐标;$b_{{\mathrm{cx}}}^{{\mathrm{gt}}}$和$b_{{\mathrm{cy}}}^{{\mathrm{gt}}}$为真实框的真实坐标。
距离成本$ \Delta $计算过程为
$$ \Delta = \sum\limits_{t = x,y}^{} {(1 - {{\mathrm{e}}^{ - \gamma {\rho _{\mathrm{t}}}}})} $$ (7) $$ \left\{ \begin{gathered} {\rho _{\mathrm{x}}} = {\left(\frac{{b_{{{\mathrm{cx}}}}^{{\mathrm{gt}}} - {b_{{{\mathrm{cx}}}}}}}{{{c_{\mathrm{w}}}}}\right)^2} \\ {\rho _{\mathrm{y}}} = {\left(\frac{{b_{{{\mathrm{cy}}}}^{{\mathrm{gt}}} - {b_{{{\mathrm{cy}}}}}}}{{{c_{\mathrm{h}}}}}\right)^2} \\ \end{gathered} \right. $$ (8) 其中,$ \gamma = 2 - \Lambda $;$ {b_{{{\mathrm{cx}}}}} $和$ {b_{{{\mathrm{cy}}}}} $为预测框的中心的坐标;$ b_{{{\mathrm{cx}}}}^{{\mathrm{gt}}} $,$ b_{{{\mathrm{cy}}}}^{{\mathrm{gt}}} $为真实框的中心的坐标;$ c_{{\mathrm{h}}} $和$ c_{\mathrm{w}} $为真实框和预测侧框的最小外接框的长度。
形状成本$ \Omega $计算过程为
$$ \Omega = \sum\limits_{t = w,h}^{} {{{(1 - {{\mathrm{e}}^{ - {\omega _{\mathrm{t}}}}})}^\theta }} $$ (9) $$ \left\{ \begin{gathered} {w_{{{\mathrm{w}}}}} = \frac{{|w - {w^{{\mathrm{gt}}}}|}}{{\max (w,{w^{{\mathrm{gt}}}})}} \\ {w_{{{\mathrm{h}}}}} = \frac{{|h - {h^{{\mathrm{gt}}}}|}}{{\max (h,{h^{{\mathrm{gt}}}})}} \\ \end{gathered} \right. $$ (10) 其中,$ w $和$ h $为预测框的宽和高;$ {w^{{\mathrm{gt}}}} $和$ {h^{{\mathrm{gt}}}} $为真实框的宽和高;$ \theta $为对形状成本$ \Omega $的关注度,通常取值在2~6之间,本文试验中设置为4。
IoU成本计算过程为
$$ {\mathrm{IoU}} = \frac{{|B \cap {B^{GT}}|}}{{|B \cup {B^{GT}}|}} $$ (11) 综上所述,SIoU Loss计算过程可表示为
$$ {L_{{\mathrm{SIoU}}}} = 1 - {\mathrm{IoU}} + \frac{{\Delta + \Omega }}{2} $$ (12) 1.4 Ghost模块轻量化
快速准确的人员识别可以为井下安全作业和人员监控管理提供保障。为设计轻量化的煤矿井下人员检测算法,减少计算量和参数量,提高检测速度,采用轻量化模块优化骨干网络。Ghost模块可以通过简单的线性变换得到丰富的特征图,在不损失模型性能的前提下,降低模型的参数量,提高检测速度,有利于煤矿井下的实时应用和资源受限设备上的部署。Ghost卷积操作模块如图7所示。首先通过普通卷积得到通道数较少的特征图,然后通过线性运算扩充特征图数量。最后,与线性运算后的特征图在通道方向上拼接,得到最后的输出结果。
对于输入特征图$ h \times w \times c $,采用$ n $个大小为$ k \times k $的卷积核进行卷积操作,输出结果为$ h^{\prime} \times w^{\prime} \times n $,卷积过程中的计算量为$ n \times h^{\prime} \times w^{\prime} \times c \times k \times k $。使用Ghost卷积时,特征图的个数为$n = m \times s$,线性操作中存在1个恒等映射和$ m \times (s - 1) = (n/s) \times s \times (s - 1) $个线性运算,且运算中的卷积核大小等于$ d \times d $。采用Ghost模块轻量化后达到的加速比为
$$ \begin{array}{c} rs = \dfrac{{n \times h^{\prime} \times w^{\prime} \times c \times k \times k}}{{\dfrac{n}{s} \times h^{\prime} \times w^{\prime} \times c \times k \times k + (s - 1) \times \dfrac{n}{s} \times h^{\prime} \times w^{\prime} \times d \times d}} = \\ \dfrac{{c \times k \times k}}{{\dfrac{1}{s} \times c \times k \times k + (s - 1) \times \dfrac{{s - 1}}{s} \times d \times d}} \approx \\ \dfrac{{s \times c}}{{s + c - 1}} \approx s \end{array} $$ (13) 从计算结果可以看出,与普通的卷积相比,Ghost模块在相同操作下,计算量约为原来的$ 1 / \mathrm{s} $,大大减少了计算量,加快了模型的检测速度。基于上述,引入Ghost模块并结合CA注意力机制构建了G-Conv系列模块,在瓶颈结构中加入DW卷积模块,进一步减少模型计算量,如图8所示。
2. 试验与结果分析
2.1 建立数据集
煤矿井下人员检测数据集(Underground Mine Personnel Detection Dateset,UMPDD)采集于鄂尔多斯马泰壕煤矿,包括输送带机头、胶带机头、北郊机头转载点、工作面胶带机头、主斜井底、主斜井口、副井底等多个井下场景,共采集
6770 张图像,样本如图9所示。图像采集设备为海康威视防爆防水摄像机,图像最大分辨率为1920×1080 ,现场环境为:低照度、不均匀光照、粉尘质量浓度3.4~3.7 mg/m3,图像的平均像素值为80.54,像素值的平均标准差为60.72。使用Labelme软件对数据集中的人员目标进行标注。训练集和测试集按照4∶1划分;输入图片尺寸统一设置为640 pixel×640 pixel。图10为数据集标签大小的分布,其中,横纵坐标分别表示标签的宽高。由图10可知,UMPDD数据集中的人员目标主要聚集于左下角,表明该数据集以小尺寸目标为主,与本文对煤矿井下的人员误检、漏检问题的描述吻合。
2.2 试验设置与评价指标
所有试验均在Ubuntu 22.04上进行,采用Pytorch 1.18.0框架进行训练,其中CUDA版本为11.4,显卡GPU为RTX 2070 SUPER,编译语言为Python 3.6。为避免训练时模型震荡,实验采用warmup方法进行试验。在预热模型结束后,采用余弦退火算法调整最终学习率。模型训练超参数设置见表1。
表 1 超参数设置Table 1. Hyper Parameter Setting超参数 数值设置 迭代次数epoch 200 批次Batchsize 16 损失优化器 SGD Warmup动量初始系数 0.80 Warmup迭代轮次 3 Momentum系数 0.97 初始学习率 0.01 最终学习率 0.001 实验评价指标包括参数量、计算量、平均检测精度值(mAP)和单帧检测时间(Frames Per Second,FPS)。mAP计算公式为
$$ {\mathrm{m A P}}=\frac{\displaystyle\sum_i^n{\mathrm{ A P}}}{n} $$ (14) $$ \left\{\begin{array}{l} {\mathrm{A P}}=\dfrac{\displaystyle\sum_i^n P \times R}{N} \\[8.5pt] P=\dfrac{{\mathrm{T P}}}{{\mathrm{T P}}+{\mathrm{F P}}} \\[8.5pt] R=\dfrac{{\mathrm{T P}}}{{\mathrm{T P}}+{\mathrm{F N}}} \end{array}\right. $$ (15) 其中;${\mathrm{ A{P}}_i} $(Average Precision)为某一类别平均精度的均值;N为类别数量;P为准确率;R为召回率;TP为真正例;FP为假正例;FN为假负例。
单帧检测时间可表示为
$$ {\mathrm{FPS}} = \frac{{{F_{\mathrm{n}}}}}{T} $$ (16) 其中,${F_{\mathrm{n}}}$为检测图片的个数;$T$为检测图片所用的总时间。
2.3 模型训练结果
模型训练损失函数曲线如图11所示,绿线、红线和蓝线分别代表分类损失、定位损失和置信度损失。从图中可以看出,YOLOv5-CWG经过Ghost模块轻量化处理后,损失函数的收敛速度更快。模型训练精度如图12所示,其中,mAP@0.5表示IoU阈值为0.5时的mAP。训练初期mAP增长速度相当,15个epoch后YOLOv5-CWG的增长速率高于YOLOv5s。最终,YOLOv5s和YOLOv5-CWG分别达到了90.2%和97.5%。试验证明,改进算法的检测精度更高,在煤矿井下复杂环境中的人员检测效果更好。
2.4 与主流目标检测算法对比
表2为YOLO-CWG算法与目前主流目标检测算法的性能对比。从表中可以看出,YOLOv5-CWG在UMPDD数据集上的准确率达到了97.5%,与原来的YOLOv5s算法相比提升了7.3%,且模型较小。轻量级模型如:YOLOv5-MobileNet和YOLOv5-ShuffleNet的检测速度较快,具有良好的实时性,但检测精度不高。SSD和R-FCN虽然具有很高的准确率,但是检测速度慢,实时性差。笔者提出的算法在精度和实时性之间取得了很好的平衡,综合性能更加优越。
表 2 与主流算法性能的对比结果Table 2. Performance comparison results with mainstream algorithms模型 输入 权重/M mAP FPS YOLOv5s 640×640 14.5 90.2 55 Fast-RCNN 1000 ×600— 83.0 0.5 Faster-RCNN 1000 ×600462 86.2 7 R-FCN 1000 ×600— 92.6 14 YOLOv3 640×640 117 78.3 56 YOLOv4-tiny 640×640 6.0 76.2 97.5 YOLOv5-MobileNet 640×640 7.4 82.3 73.2 YOLOv5-ShuffleNet 640×640 1.3 81.5 78.9 SSD 300×300 201 89.2 49 512×512 207 93.3 22 SSD-MobileNetV3 320×320 29.9 84.9 55 Ours 640×640 13.6 97.5 61.3 YOLO-CWG算法与主流目标检测算法在UMPDD数据集上的检测对比结果如图13所示。当b组人员密集且存在遮挡时,Faster R-CNN算法和YOLOv3算法在右上出现了人员漏检。c组在低照度环境中难以区分背景与待检测目标的情况下,YOLOv3算法在左上出现了人员漏检。SSD和YOLOv5相较于前2种方法表现相对较好,未出现漏检问题,但检测框的回归存在一定偏差,如SSD在(b)组中的右上部分的边界框过大,YOLOv5在(a)组中的边界框过大。与其算法相比,笔者提出的YOLOv5-CWG算法由于引入了CA注意力机制抑制干扰较大的特征通道,引入加权多尺度特征融合更好地理解目标区域和背景噪声,在通道和特征层两方面提高模型对目标的关注度,提升模型的判断能力和抗干扰能力,使得模型在(a)组中的目标检测边界框更加准确,在(b)组人员遮挡情况下的检测精度更高,在(c)组粉尘影响严重且难以区分背景与待检测目标的条件下,漏检率更低。通过引入ghost模块对模型进行轻量化处理,降低模型参数量,加快模型的推理速度,使得算法的整体性能更优。
2.5 模型有效性分析
针对煤矿井下图像低照度、尘雾影响大、难以区分背景与待检测等因素导致的人员显著度低的问题,在YOLOv5骨干网络中嵌入注意力模块提高模型对难辨识人员的关注度。注意力机制的消融实验结果见表3。引入SE和CBAM注意力机制后,检测精度分别提高了1.7%和1.9%,引入CA注意力机制的提升更为明显,提高了2.3%。试验证明,相比于其他注意力机制,CA注意力机制增强了目标特征提取能力,有助于人员目标的定位和识别。图14为YOLOv5s加入不同注意力机制后的热力对比。从图中可以看出,相比于SE和CBAM注意力机制,引入CA注意力机制后,待检测目标的位置特征更为精确。
表 3 不同注意力机制的对比结果Table 3. Comparative results of different attention mechanisms模型 参数量 计算量/G mAP@0.5/% YOLOv5s 7073569 16.0 90.2 + SE 7114529 16.0 91.9 + CBAM 7114725 16.1 92.1 + CA 7105897 16.0 92.5 为验证WMFFM模块的有效性,在YOLOv5s基础上进行消融实验来对比WMFFM结构和原PAN结构的检测效果,结果见表4。从表中可知,引入WMFFM后模型检测精度提高了4.2%,表明提出的特征融合结构WMFFM有效提高了模型的检测精度,有利于煤矿井下人员目标检测。
表 4 添加WMFFM模块前后性能对比Table 4. Performance comparison before and after adding WMFFM modules模型 参数量/M 计算量/G mAP@0.5/% YOLOv5s 7.07 16.0 90.2 +WMFFM 14.74 20.7 94.4 为验证损失函数对检测性能的影响,将SIoU与原CIoU损失函数进行对比,结果见表5。由表可知,引入SIoU后,在参数量与检测速度基本维持不变的情况下,模型检测精度提高了0.5%。这得益于SIoU重新定义了惩罚项,引入期望回归之间的向量夹角作为损失度量。改进算法选用SIoU后检测精度更高,验证了引入SIoU损失函数的有效性。
表 5 损失函数的对比结果Table 5. Comparison results of loss functions损失函数 参数量/M 计算量/G FPS mAP@0.5/% CIoU 7.07 16.0 57 90.2 SIoU 7.07 16.0 57 90.7 为验证引入Ghost模块的有效性,进行对了比实验,结果见表6。YOLOv5s骨干网络使用G-Conv系列模块后,网络参数量和计算量大幅减少,约为原来的50%,mAP降低了1.8%。引入WMFFM和CA机制增加了参数量,添加Ghost模块有效缓解了网络复杂度的上升。与原YOLOv5s算法对比,YOLOv5-CWG的mAP提升了7.3%,计算量减少了42.5%,验证了引入Ghost模块有助于模型轻量化的有效性。
表 6 Ghost模块的消融实验结果Table 6. Results of ablation experiments with the Ghost module模型 参数量/M 计算量/G mAP@0.5/% YOLOv5s 7.07 16.0 90.2 + Ghost 3.65 8.2 88.4 YOLOv5-CWG 7.31 9.2 97.5 3. 结 论
1)针对煤矿井下人员目标显著度低,难以识别的问题,在YOLOv5骨干网络中引入CA注意力机制,兼顾不同通道和特征空间的位置信息,提高网络对目标的关注度;
2)针对煤矿井下人员检测中的漏检和误检问题,提出WMFFM替换原PAN结构,有效融合了不同尺度的特征,提高了煤矿井下人员目标的检测精度。损失函数采用SIoU代替CIoU,加快了模型的收敛速度。
3)针对检测模型参数量较大、实时性差的问题,在骨干网络引入Ghost模块大幅降低了模型复杂度,参数量和计算量约为原模型的一半。
4)在煤矿井下人员检测数据集上的实验证明,提出的YOLOv5-CWG相较于YOLOv5s,mAP提高了7.3%,FPS提高了6.3帧/s,兼顾了准确性和实时性,在煤矿井下具有优秀的人员检测性能。后续将进一步探索该模型在煤矿井下的检测设备及预警系统中的部署和工程实践,用于辅助井下人员安全作业、安全帽佩戴检测和危险区域的人员检测等任务。
-
表 1 超参数设置
Table 1 Hyper Parameter Setting
超参数 数值设置 迭代次数epoch 200 批次Batchsize 16 损失优化器 SGD Warmup动量初始系数 0.80 Warmup迭代轮次 3 Momentum系数 0.97 初始学习率 0.01 最终学习率 0.001 表 2 与主流算法性能的对比结果
Table 2 Performance comparison results with mainstream algorithms
模型 输入 权重/M mAP FPS YOLOv5s 640×640 14.5 90.2 55 Fast-RCNN 1000 ×600— 83.0 0.5 Faster-RCNN 1000 ×600462 86.2 7 R-FCN 1000 ×600— 92.6 14 YOLOv3 640×640 117 78.3 56 YOLOv4-tiny 640×640 6.0 76.2 97.5 YOLOv5-MobileNet 640×640 7.4 82.3 73.2 YOLOv5-ShuffleNet 640×640 1.3 81.5 78.9 SSD 300×300 201 89.2 49 512×512 207 93.3 22 SSD-MobileNetV3 320×320 29.9 84.9 55 Ours 640×640 13.6 97.5 61.3 表 3 不同注意力机制的对比结果
Table 3 Comparative results of different attention mechanisms
模型 参数量 计算量/G mAP@0.5/% YOLOv5s 7073569 16.0 90.2 + SE 7114529 16.0 91.9 + CBAM 7114725 16.1 92.1 + CA 7105897 16.0 92.5 表 4 添加WMFFM模块前后性能对比
Table 4 Performance comparison before and after adding WMFFM modules
模型 参数量/M 计算量/G mAP@0.5/% YOLOv5s 7.07 16.0 90.2 +WMFFM 14.74 20.7 94.4 表 5 损失函数的对比结果
Table 5 Comparison results of loss functions
损失函数 参数量/M 计算量/G FPS mAP@0.5/% CIoU 7.07 16.0 57 90.2 SIoU 7.07 16.0 57 90.7 表 6 Ghost模块的消融实验结果
Table 6 Results of ablation experiments with the Ghost module
模型 参数量/M 计算量/G mAP@0.5/% YOLOv5s 7.07 16.0 90.2 + Ghost 3.65 8.2 88.4 YOLOv5-CWG 7.31 9.2 97.5 -
[1] 陈伟,任鹏,田子建等. 基于注意力机制的无监督矿井人员跟踪[J]. 煤炭学报,2021,46(S1):601−608. CHEN Wei,REN Peng,TIAN Zijian et al. Unsupervised mine personnel tracking based on attention mechanism[J]. Journal of China Coal Society,2021,46(S1):601−608.
[2] LOWE D G. Distinctive image features from scale-invariant keypoints[J]. International journal of computer vision,2004,60(2):91−110. doi: 10.1023/B:VISI.0000029664.99615.94
[3] DALAL N,TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE computer society confer-ence on computer vision and pattern recognition (CVPR'05). IEEE,2005,1:886−893.
[4] OJALA T,PIETIKAINEN M,MAENPAA T. Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on pattern anal-ysis and machine intelligence,2002,24(7):971−987. doi: 10.1109/TPAMI.2002.1017623
[5] GIRSHICK R,DONAHUE J,DARRELL T,et,al. Rich feature hierarchies for accurate object detection and semantic segmentation[J]. ACM:New York,NY,USA,2014.
[6] GIRSHICK R. Fast R-CNN [C]//Proceedings of the IEEE international conference on computer vision,2015:1440−1448.
[7] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. Advances in neural information processing systems,2015,28.
[8] DAI J,LI Y,HE K,et al. R-FCN:Object detection via region-based fully convolutional networks[J]. Advances in neural information processing systems,2016,29.
[9] HE K,GKIOXARI G,DOLLÁR P,et al. MASK R-CNN[C]//Proceedings of the IEEE international conference on computer vision,2017:2961−2969.
[10] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:Unified,real-time object detection[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2016:779−788.
[11] REDMON J,FARHADI A. YOLO9000:better,faster,stronger. In:Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR),2017:6517–6525
[12] REDMON J,FARHADI A. YOLOv3:an incremental improvement[J]. 2018,arXiv:180402767.
[13] LIU W,ANGUELOV D,ERHAN D,et al. SSD:Single shot multibox detector[C]//Computer Vision–ECCV 2016:14th European Conference,Amsterdam,The Netherlands,October 11–14,2016,Proceedings,Part I 14. Springer International Publishing,2016:21−37.
[14] 张明臻. 基于Dense-YOLO网络的井下行人检测模型[J]. 工矿自动化,2022,48(3):86−90. Zhang Mingzhen. Underground pedestrian detection model based on Dense-YOLO network[J]. Industrial and Mining Automation,2022,48(3):86−90.
[15] 魏力,云霄,程小舟,等. 井下复杂环境人员重识别研究[J]. 工矿自动化,2021,47(6):63−70. WEI Li,YUN Xiao,CHENG Xiaozhou,et al. Research on personnel re-identification in underground complex environment[J]. Industrial and Mining Automation,2021,47(6):63−70.
[16] 张翼翔,林松,李雪. 基于CenterNet-GhostNet的选煤厂危险区域人员检测[J]. 工矿自动化,2022,48(4):66−71. ZHANG Yixiang,LIN Song,LI Xue. Personnel detection in hazardous area of coal processing plant based on CentreNet-GhostNet[J]. Industrial and Mining Automation,2022,48(4):66−71.
[17] 程德强,徐进洋,寇旗旗,等. 融合残差信息轻量级网络的运煤皮带异物分类[J]. 煤炭学报,2022,47(3):1361−1369. CHENG Deqiang,XU Jinyang,KOU Qiqi,et al. Fusion of residual information lightweight network for foreign object classification of coal transport belt[J]. Journal of Coal,2022,47(3):1361−1369.
[18] HOU Q,ZHOU D,FENG J. Coordinate attention for efficient mobile network design[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition,2021:13713−13722.
[19] TAN M,PANG R,LE Q V. EfficientDet:Scalable and efficient object detection[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition,2020:10781−10790.
[20] ZHENG Z,WANG P,LIU W,et al. Distance-IoU loss:Faster and better learning for bounding box regression[C]//Proceedings of the AAAI conference on artificial intelligence,2020,34(07):12993−13000.
[21] GEVORGYAN Z. SIoU Loss:More Powerful Learning for Bounding Box Regression[J]. arXiv preprint arXiv:2205.12740,2022.
[22] HAN K,WANG Y,TIAN Q,et al. GhostNet:More features from cheap operations[C]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020:1580−1589.
[23] HU J,SHEN L,SUN G. Squeeze-and-excitation networks[C]//Proceedings of the IEEE conference on computer vision and pattern recognition,2018:7132−7141.
[24] WOO S,PARK J,LEE J Y,et al. CBAM:Convolutional block attention module[C]//Proceedings of the European conference on computer vision (ECCV),2018:3−19.
[25] 陈海燕,甄霞军,赵涛涛. 一种通道−空间注意力机制特征融合的小目标检测模型[J]. 华中科技大学学报(自然科学版),2023,51(3):60−66. CHEN Haiyan,ZHEN Xiajun,ZHAO Taotao. A small target detection model for channel-space attention mechanism feature fusion[J]. Journal of Huazhong University of Science and Technology (Natural Science Edition),2023,51(3):60−66.