Conveyor belt deviation detection method based on dual flow network
-
摘要:
传统输送带跑偏检测方法中,接触式检测技术成本高,非接触式检测技术则精度低。随着人工智能技术的发展,虽然基于卷积神经网络的方法可以有效提高检测精度,但受限于卷积操作本身局部运算特性的限制,仍存在对长距离、全局信息感知不足等问题,很难再提升在输送带边缘检测上的精度。为解决上述问题,① 通过将传统卷积神经网络的卷积对局部特征的提取能力与Transformer结构对全局、长距离信息感知能力相结合,提出了一种全局与局部信息相互融合的双流输送带边缘检测网络模型(Dual-Flow Transformer Network,DFTNet),能够较好地提高输送带边缘检测精度并抑制输送带图像噪声和背景的干扰;② 通过设计卷积神经网络(Convolutional Neural Network,CNN)和转换器Transformer特征融合模块,形成双流编码器–解码器结构,利用结构上的巧妙设计,可以更好地融合全局上下文信息,避免了Transformer结构在大规模数据集上预训练,可以灵活调节网络结构;③ 通过从实际工业场景中所采集到多场景的运输机输送带图片,构建了包含5种不同场景下多角度、不同位置的输送带输送带数据集。研究结果表明,双流融合网络DFTNet综合性能最佳,均交并比mIou达91.08%,准确率ACC达99.48%,平均精确率mPrecision达91.88%,平均召回率mRecall达96.22%,相比纯卷积神经网络HRNet分别提升了25.36%、0.29%、17.70%与29.46%,相比全卷积神经网络(Fully Convolutional Networks,FCN)分别提升了29.5%、0.32%、24.77%与34.13%,在参数量、计算速度上均有较大提升。同时,处理图像帧率达53.07 fps,满足工业中实时性的要求,具有较大实用价值。
Abstract:Among the traditional belt edge detection methods, the contact detection technology has high cost and the non-contact detection technology has low precision. With the development of artificial intelligence technology, although the method based on convolutional neural network can effectively improve the detection accuracy, but limited by the local operation characteristics of the convolutional operation itself, there are still problems such as insufficient perception of long-distance and global information, it is difficult to improve the accuracy of the belt edge detection. In order to solve the above problems, ① by combining the traditional convolutional neural network's ability to extract local features and the Transformer structure's ability to perceive global and long-distance information, a dual-flow transformer network (DFTNet) which integrates global and local information is proposed. The edge detection network model can better improve the belt edge detection accuracy and suppress the interference of belt image noise and background; ② By designing the CNN and Transformer feature fusion modules, a dual-flow encoder-decoder structure is formed. The clever design can better integrate the global context information, avoid the pre-training of the Transformer structure on large-scale data sets and be flexibly adjusted; ③ By Through the multi-scene conveyor belt pictures collected from the actual industrial scene, a belt conveyor belt dataset containing five different scenes, various angles and different positions is constructed. Through experimental verification, the DFTNet proposed in this paper has the best comprehensive performance with mIou 91.08%, ACC 99.48%, mPrecision 91.88% and mRecall 96.22%. which are 25.36%, 0.29%, 17.70% and 29.46% respectively compared to the pure convolutional neural network HRNet, and 29.5%, 0.32%, 24.77% and 34.13% respectively compared to FCN. At the same time, the frame rate of DFTNet processing images reaches 53.07 fps, which meets the real-time requirements in the industry and has great practical value.
-
Keywords:
- belt deviation /
- edge detection /
- neural network /
- encoder-decoder /
- image segmentation
-
0. 引 言
输送带运输机跑偏事故会对企业造成巨大经济损失,严重时甚至会造成人员伤亡。及时准确地检测出传送带跑偏情况并采取有效措施,可以有效避免事故发生,对安全生产意义重大[1]。现有的传送带跑偏检测主要依靠人工检查及传统接触式检测方法,存在成本高、不稳定、易错检或漏检等问题,对于长距离、复杂环境下的工业输送带场景往往并不适用[2]。随着工业中摄像头的普及,工业输送带图像数据量日益增大,兴起了对运输机输送带图像数据相关应用技术的研究,其中包括利用机器视觉技术实现对传送带跑偏检测,其优点是可以对传送带边缘进行连续的检测[3]。
基于机器视觉检测技术的传统跑偏检测算法主要根据为当输送带跑偏时,图像灰度值会在输送带边缘附近发生变化,并采用基于微分的方法进行边缘的提取[4-5]。此种方法虽然有检测速度快、实现方便等优点,但是在合适的梯度阈值选取方面比较困难,结果受到阈值选取的影响较大。为了进一步提高基于机器视觉技术的检测精度,随着大数据和人工智能技术的发展,基于深度学习的检测技术开始应用于传送带跑偏检测方面。LIU等[6]分别将全卷积神经网络(Fully Convolutional Networks,FCN[7]),深度实验室网络模型DeepLab[8],整体嵌套边缘检测网络(Holistically-Nested Edge Detection,HED[9])应用于传送带跑偏检测任务。POMA等[10]在HED网络的基础上压缩了模型结构并简化了最后的网络输出,但以上网络仍存在以下不足:① 预测的边缘效果较粗糙且处理速度较慢;② 由于卷积操作本身仅进行局部运算,很难构建像素间长距离的依赖关系;③ 目前应用于输送带跑偏检测的网络模型的检测速度没有达到25帧/s的实时性要求。
Transformer[11]结构不受限于局部运算,能够建模全局上下文信息,在自然语言处理任务上有着出色的表现。DOSOVITSKIY等[12]提出了视觉Transformer(Vision Transformer,ViT),该网络首次将Transformer结构应用于图像任务中,在大规模的数据上进行训练后,在精度上超越了基于卷积神经网络(Convolutional Neural Network,CNN)的方法,但ViT结构输出特征图的分辨率低且单一,会导致局部信息的丢失;TOUVRON等[13]提出了数据高效的图像变换器(Data-Efficient image Transformer,DEiT),这表明了Transformer结构能在中等规模的数据集上进行训练,并取得了较好的效果;LIU等[14]提出了Swin变换器(Swin Transformer,SwinT)结构,该网络在图像分类、目标检测及语义分割中均取得了当时学术界深度学习模型中最好的效果。ViT、DEiT、SwinT的出现证明了Transformer结构在机器视觉任务中的应用潜力,但与纯卷积神经网络相比,Transformer结构往往参数量大、计算复杂度较高。
结合Transformer结构的优势,针对卷积神经网络限于局部运算不能有效获得长距离依赖关系的问题,本文提出了一种全局与局部信息相互融合的双流输送带跑偏检测网络模型(Dual-Flow Transformer Network,DFTNet),通过将Transformer和CNN网络进行融合,构建了双流解码器−编码器结构,提高了网络模型对全局、长距离信息感知能力,和其他基于CNN的方法相比,DFTNet能在较少的参数下,实现对输送带边缘的实时性准确检测。
1. 双流融合网络的搭建
1.1 DFTNet双流网络总体结构
为了增强网络上下文信息感知能力以及保留丰富的细节信息,针对输送带边缘模糊、背景类别复杂、干扰信息较多等特点,设计了基于Transformer和CNN双流融合网络的输送带边缘检测方法。通过设计CNN和Transformer特征融合模块,形成双流编码器–解码器结构,可以更好地融合全局上下文信息,避免了Transformer结构需要在大规模数据集上预训练的缺点,同时可以灵活调节网络结构,如图1所示。其中,C为输送带特征图像的通道数,H和W分别为输送带特征图像的高度和宽度。
编码器由Transformer基础模块与CNN基础模块2个分支构成。在Transformer基础模块中,输送带图像首先通过Patch分割模块层将输送带特征图像转换为相互不重叠的4×4的序列小块,同时特征通道数变成了4×4×3=48。之后通过线性嵌入模块层,将特征图像转换成任意维度,统一表示为C,通过第一个SwinT基础模块后生成大小为H/4×W/4×32C的特征图像,然后经过一个Patch合并模块层和第2个SwinT基础模块后生成H/8×W/8×64C的特征图像。编码器中CNN基础模块包含一个Stem层以及2个下采样层,其输出特征图的大小为H×W×8C;经过Stem层后图像经过2个下采样操作,且每次下采样后特征通道数加倍,最后共产生H/2×W/2×16C、H/4×W/4×32C等2个不同的特征图像输入到融合模块解码器当中。
解码器由3个上采样组成,每个上采样由一个可以使图像特征通道数量减半的卷积操作构成。特征图像在经历每个上采样步骤之后,通过将提取到的上下文特征与编码器的多尺度特征融合在一起,进而抵消由于CNN卷积操作带来的空间信息的损失。经过3个上采样操作之后,图像的分辨率恢复到H×W×2,最后通过线性映射模块将这些上采样特征进行像素级的分割预测,最终实现对输送带边缘的准确检测。
1.2 SwinT基础模块
编码器中的SwinT基础模块主要由基于2个连续的多头自注意力模块构成,其主要基于窗口的多头自注意力机制(Window Based Multi-head Self Attention,W-MSA),有别于卷积的多头注意力机制(Multi-head Self Attention,MSA),其核心模块如图2所示。每个SwinT模块均包含2个连续的多头自注意力模块,每个模块均由层归一化(Layer Normalization,LN)、多头自注意力机制、残差连接以及多层感知机(Multi-Layer Perceptron,MLP)组成,多层感知机由两层线性层及GELU(Gaussian Error Linear Unit)激活函数组成。其中第一个模块应用了基于窗口的多头自注意力机制,第二个模块在W-MSA基础上加入了Shift-Window操作形成基于滑动窗口的多头自注意力机制SW-MSA。
SwinT模块中基于窗口的自注意力机制降低了常用自注意力机制的计算复杂度,整体计算过程如式(1)—式(4),其中zl表示第l个模块经MLP和残差连接后输出的特征,ˆzl表示经W-MSA或者SW-MSA和残差连接后输出的特征,ˆzl−1、ˆzl+1分别代表SwinT输出模块的输入与输出。
ˆzl=W−MSA[LN(zl−1)]+zl−1 (1) zl=MLP[LN(ˆzl)]+ˆzl (2) ˆzl+1=SW−MSA[LN(zl)]+zl (3) zl+1=MLP[LN(ˆzl+1)]+ˆzl+1 (4) 这里ˆzl和zl分别作为SW-MSA模块和MLP模块的输出。参照文献[15-16],在计算多头自注意力机制时,每个head的计算方式如下:
\mathrm{A}\mathrm{t}\mathrm{t}\mathrm{e}\mathrm{n}\mathrm{t}\mathrm{i}\mathrm{o}\mathrm{n}({\boldsymbol Q},{\boldsymbol K},{\boldsymbol V})=\mathrm{S}\mathrm{o}\mathrm{f}\mathrm{t}\mathrm{M}\mathrm{a}\mathrm{x}\left(\frac{{\boldsymbol Q}{{\boldsymbol K}}^{{\mathrm{T}}}}{\sqrt{d}}+B\right)V (5) 其中 {\boldsymbol Q},{\boldsymbol K},{\boldsymbol V}\in {\mathbb{R}}^{{M}^{2}\times d} 分别代表Query、Key、Value矩阵, {M}^{2} 和 d 分别代表一个窗口里图像块数量和Query或Key的特征维度数, B 的值来源于偏置矩阵 \hat{{\boldsymbol B}}\in {\mathbb{R}}^{(2M-1)\times (2M+1)} 。
1.3 CNN基础模块
编码器中的CNN基础模块主要由一个词干提取stem模块与2个下采样操作构成,如图3所示。stem模块由2个大小为3×3、步幅为1、填充数为1的卷积、批量标准化和修正线性单元(Rectified Linear Unit,ReLU)激活函数组成,通过stem模块后,输入特征图像的大小变为H×W×8C,后经过2个由大小为2×2、步幅为2的卷积操作构成的下采样层后分别输出大小为H/2×W/2×16C、H/4×W/4×32C的特征图像。
1.4 融合模块
解码器中的融合模块主要由双线性差值与1×1卷积组成的上采样操作、逐元素求和、线性映射模块组成。c1和p2通过逐元素求和操作进行融合,输出特征图像大小不变,之后通过连续3次上采样操作分别与c2、p1、p0进行融合,其中,c1、c2、p2、p1、p0代表图1中不同阶段输出的结果。特征图像通过上采样操作后,特征图像通道数量减半,输出特征图像尺寸按照输入图像的最大尺寸作为输出,最终通过线性映射模块后输出H×W×2的输送带边缘图像,具体结构如图4所示。本文提出的融合CNN及Transformer结构的模块能够有效利用CNN和Transformer的各自优势分别提取局部和全局特征,并通过通道加法和上采样操作,达到交互融合的状态,既构建了输送带特征图像上下文依赖关系,又丰富了局部细节信息,增强了网络提取特征的能力。
1.5 损失函数
本网络使用的损失函数为交叉熵损失函数[17],该损失函数用于描述检测实际预测值与标签值两个概率之间的关系。当交叉熵损失函数的值越小时,表明预测的结果越接近于目标结果。具体计算公式如下:
\begin{array}{c} \mathrm{l}\mathrm{o}\mathrm{s}\mathrm{s}(x,{\mathrm{class}})=-\mathrm{l}\mathrm{o}\mathrm{g}\left(\dfrac{\mathrm{e}\mathrm{x}\mathrm{p}\left(x\right[{\mathrm{class}}\left]\right)}{{\sum }_{j} \mathrm{e}\mathrm{x}\mathrm{p}\left(x\right[j\left]\right)}\right)=\\-x\left[{\mathrm{class}}\right]+\mathrm{l}\mathrm{o}\mathrm{g}\left({\sum }_{j} \mathrm{e}\mathrm{x}\mathrm{p}\left(x\right[j\left]\right)\right) \end{array} (6) 其中,x为样本;class为类别;j为样本x的标签值,正类为1,负类为0。
1.6 输送带跑偏检测算法
通过计算预测结果图中边缘中心线相对标签图中心线的偏移量,当偏移量波动超出某一阈值,视作传送带跑偏。偏移量具体计算流程按如下规则进行。假设Xas为后处理结果中左侧边缘起始点横坐标,Xbs为后处理结果中右侧边缘起始点横坐标,Xae为后处理结果中左侧边缘终点横坐标,Xbe为后处理结果中右侧边缘终点横坐标,Xs为两侧起始点横坐标的平均值,Xe为两侧起始点横坐标的平均值,具体示意如图5所示。
基于以上描述有如下关系式:
{X}_{{\mathrm{s}}}=\frac{{X}_{{\mathrm{as}}}+{X}_{{\mathrm{bs}}}}{2} (7) {X}_{{\mathrm{e}}}=\frac{{X}_{{\mathrm{ae}}}+{X}_{{\mathrm{be}}}}{2} (8) 传送带偏移值计算公式:
\delta=\left(X_{\mathrm{s}}-\bar{X}_{\mathrm{s}}\right)^2+\left(X_{\mathrm{e}}-\bar{X}_{\mathrm{e}}\right)^2 (9) 其中 {\bar X }_{{\mathrm{s}}} 和 \bar{ X }_{{\mathrm{e}}} 分别为标签中左右边缘起始点和终点横坐标的平均值,当 \delta 波动大于给定阈值时认为传送带已有跑偏迹象。
2. 评价指标
本文网络模型的最终目的是在输送带数据集中检测出测试集中所有的输送带边缘,以输送带跑偏检测为例,GT(Ground Truth)代表真实标签;TP(True Positive)表示标签为输送带边缘,预测为输送带边缘;TN(True Negative)表示标签为输送带边缘,预测为其他;FP(False Positive)表示标签为其他,预测为输送带边缘;FN(False Negative)表示标签为其他,预测为其他。指标混淆矩阵见表1。
表 1 指标混淆矩阵Table 1. Indicator confusion matrix真实结果 预测结果 真实标签=True 真实标签=False 预测=True 真阳性TP 假阴性FP 预测=False 假阳性FN 真阴性TN 基于以上的概念,精确度(Precision)表示检测类别是输送带边缘并且标签也是输送带边缘的部分占所有检测器检测为输送带边缘的比例,也叫查准率。平均检测精度mAP可表示为
P'=\frac{{\mathrm{TP}}}{{\mathrm{TP}}+{\mathrm{FP}}} (10) {\mathrm{mAP}}=\frac{1}{N}\sum_{n=1}^{N}{\mathrm{AP}}\left(n\right) (11) {\mathrm{AP}}=\sum _{k=1}^{m}({r}_{i+1}-{r}_{i}){{P}}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}} ( {r}_{i} +1) (12) 其中,r1,r2,...,rm是按升序排列的Precison插值段第一个插值处对应的Recall值, {P}_{\mathrm{i}\mathrm{n}\mathrm{t}\mathrm{e}\mathrm{r}} 为插值操作。其中,召回率也叫查全率,表示检测到的是输送带边缘且实际标签也是输送带边缘的数量占检测器检测正确的比例,召回率能衡量检测器检测出所需类别的能力。用{R}' 代表召回率,则可表示为
{R}'=\frac{\mathrm{T}\mathrm{P}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{N}} (13) 计算得到召回率和精确率之后,可以根据召回率和精确率计算调和平均值,其计算数学公式为
{F}_1=\frac{2\times \mathrm{T}\mathrm{P}}{\text{2TP+}\text{FP}\text{+FN}} (14) 准确度(Accuracy)表示为
\mathrm{A}\mathrm{C}\mathrm{C}=\frac{\mathrm{T}\mathrm{P}+\mathrm{T}\mathrm{N}}{\mathrm{T}\mathrm{P}+\mathrm{F}\mathrm{P}+\mathrm{F}\mathrm{N}+\mathrm{T}\mathrm{N}} (15) 均交并比(Mean Intersection over Union,MloU):为语义分割的标准度量。其计算2个集合的交并比, 在语义分割的问题中,这两个集合为真实值(ground truth)和预测值(predicted segmentation)。计算公式如下: i 为真实值, j 为预测值, {P}_{ij} 为预测值j预测为真实值i的概率。
{\mathrm{MIoU}} =\frac{1}{k+1}\sum _{i=0}^{k} \frac{{P}_{ii}}{\displaystyle \sum _{j=0}^{k} {P}_{ij}+\displaystyle \sum _{j=0}^{k} {P}_{ji}-{P}_{ii}} (16) 式(16)等价于:
{\mathrm{MIoU}}=\frac{1}{k+1}\sum _{i=0}^{k} \frac{\mathrm{T}\mathrm{P}}{\mathrm{F}\mathrm{N}+\mathrm{F}\mathrm{P}+\mathrm{T}\mathrm{P}} (17) 3. 试验与分析
3.1 数据集采集与制作
本文试验使用的数据集是从实际工业场景中摄像仪所采集到多场景的输送带录像中截取相关输送带图片,共包含五种不同场景下多角度、不同位置的输送带运行状态,并制作相关数据集,具体如图6所示。
由于采集到的实际工业环境中的输送带图像大小不统一,且工业场景中固定机位的输送带图像角度单一,截取的图像帧与帧之间差距不大。因此在采集完数据后,通过扩大训练数据量、翻转操作来增加数据集的多样性和泛化性,以达到数据增强的目的,进而使检测模型具有更强的鲁棒性,其中部分数据预处理后的样例如图7所示。
根据所采集到的图像,在经过数据预处理后,最终形成了包含5个场景的图片训练集1 476张、测试集369张以及对应的标签集,数据集总体情况见表2。训练集和测试集图像格式为jpg格式,为彩色三通道图像;标签集图像格式为png,为单通道图像,保留了标签真值和背景信息方便后续图像处理。
表 2 本文所制作的数据集介绍Table 2. Introduction to the datasets produced in this paper张 数据集 场景1 场景2 场景3 场景4 场景5 合计 训练集 744 141 135 324 132 1476 训练标签集 744 141 135 324 132 1476 测试集 186 33 36 81 33 369 测试标签集 186 33 36 81 33 369 数据集的标注是利用Photoshop软件平台对输送带图像进行像素级标注,使用像素宽度为1的直线对传送带边缘进行标注,剩余部分为背景,标注结果可视化后的图像如图8所示。
3.2 试验环境和参数
试验在i9-9820X CPU、两块NVIDIA RTX 2080 Ti GPU的设备上进行,操作系统为Ubuntu 20.04,cuda版本10.2,cudnn版本7.5,pytorch版本1.6,并在PyTorch框架下实现网络模型。试验的总轮数设置为100轮,批数大小设为4,初始的学习率设为0.001,使用warming up预热1轮后采取poly学习率衰减策略,衰减率为0.9。采用AdamW作为模型的优化器,动量为0.9,权重衰减项设置为1×10−4。
3.3 消融试验
为了验证DFTNet模型结构的最优性,从模型深度、输入图片大小以及模型大小3个方面设计了消融试验,并在同一数据集上进行试验验证。
模型深度的影响:根据SwinT有4个连续的模块分别称为“Stage1”、“Stage2”、“Stage3”和“Stage4”,分别对应着不同的模型深度;每个模块相应输出分别表示为“c1”、“c2”、“c3”和“c4”,详细见参考文献[14],本文结构主要使用SWinT的“c1”、“c2”。“c1”、“c2”、“c3”和“c4”,对应输出特征图像的大小为H/4×W/4、H/8×W/8、H/16×W/16、H/32×W/32,意味着模型对图像语义信息提取的深度。本文分别设计构建了“c1,c2”、“c1,c2,c3”、“c1,c2,c3,c4”等3种不同深度的网络结构,相应的CNN基础模块也随之加深,试验结果见表3。由试验结果可知模型的检测性能并不是简单地随着网络深度的增加而增加,而模型的计算负载则随着模型深度显着增加。因此,本文模型设置网络深度为“c1,c2”,并由此构建相应的融合网络模型。
表 3 模型深度消融试验结果Table 3. Ablation experimental results of module deepth网络模
型深度均交
并比/%准确
度/%平均调和
平均值/%平均精
确度/%平均召
回率/%浮点运
算量/109参数
量/106c1,c2 91.08 99.48 88.40 91.88 96.22 5.71 28.45 c1,c2,c3 87.10 99.33 85.25 89.31 90.37 7.53 45.40 c1,c2,c3,c4 86.68 99.35 84.91 88.61 90.66 9.78 45.40 输入图片尺寸的影响:本文分别测试了64 px×64 px,128 px×128 px,256 px×256 px,512 px×512 px等3种不同输入图片的尺寸,试验结果见表4。随着输入图片尺寸大小从64×64增加到256×256时,Transformer输入图片的特定序列尺寸也随之变大,模型的分割效果也随之变好,但是输入图片尺寸512×512不如256×256,故本文输入图片尺寸大小设置为256×256。
表 4 输入图片尺寸消融试验结果Table 4. Ablation experimental results of input size输入图
片尺寸均交并比/% 准确度/% 平均调和
平均值/%平均精
确度/%平均召
回率/%64×64 88.02 91.68 88.07 90.37 95.32 128×128 89.13 96.77 88.03 90.39 95.43 256×256 91.08 99.48 88.40 91.88 96.22 512×512 88.21 90.87 87.50 91.00 94.23 模型大小的影响:根据SwinT的模型类型,一共包含tiny,small,base等3种不同参数量的模型,本文相应设计了3种模型参数量的DFTNet,试验结果见表5。随着模型大小的增大,模型效果并没有较大的提升,但是模型参数量增加,计算量增加,模型运行效率下降。因此,本文模型大小设置为tiny。
表 5 模型大小消融试验结果Table 5. Ablation experimental results of model scale网络模
型大小均交
并比/%准确度/% 平均调和
平均值/%平均精
确度/%平均召
回率/%浮点
运算量/109参数
量/106tiny 91.08 99.48 88.40 91.88 96.22 5.71 28.45 small 90.10 98.91 87.85 89.31 96.37 6.60 49.77 base 91.25 99.35 87.21 89.61 96.16 10.78 88.40 3.4 对比试验
为了验证算法方法的有效性及优越性,本文选取大量具有代表性的语义分割网络模型进行对比试验,包括纯深度神经卷积网络架构的FCN(2015)、UNet[18](2015)、SegNet[19](2016)、DeepLab v3(2017)、PSPNet[20](2017)、DanNet[21](2019)、BiSeNet V2[22](2021)。本章所有对照试验方法均在同一数据集的训练样本、同一优化器、损失函数、参数的条件下进行试验。由表6、图9、图10、图11可知,在相同数据集下,提出的DFTNet的均交并比mIoU为91.08%、准确度ACC为99.48%、平均调和平均值mF1为88.40%、平均精确度为91.88%,平均召回率mRecall为96.22%为所有模型最高,高于所有纯卷积神经网络。同时,均交并比mIoU、准确度ACC,平均精度mPrecision,相比纯卷积神经网络HRNet分别提升了25.36%、0.29%与17.70%,相比FCN分别提升了29.5%、0.32%与24.77%,在参数量、计算速度尤其是均交并比等指标上均有较大提升。
表 6 各模型对比试验结果Table 6. Comparing the experimental results of each model网络
模型均交
并比/%准确
度/%平均调和
平均值/%平均精
确度/%平均召
回率/%浮点
运算量/109参数
量/106HRNet 65.72 99.19 70.7 87.02 66.76 5.15 10.42 FCN 61.58 99.16 63.63 81.23 62.09 30.79 15.31 UNet 86.01 99.52 84.31 86.7 82.22 23.73 13.40 SegNet 79.06 99.41 87.76 86.55 82.42 26.50 35.00 DeepLab V3 86.87 99.44 85.05 81.41 89.68 31.33 41.68 PSPNet 87.46 99.49 85.53 83.51 87.83 33.96 48.63 DanNet 81.2 99.43 89.92 85.49 85.89 37.86 49.48 BiSeNet V2 66.43 99.22 71.81 80.16 67.45 2.46 3.62 DFTNet 91.08 99.48 88.4 91.88 96.22 5.71 28.45 从评价指标上来看,DFTNet的各项评价指标为对比试验中最优;从检测结果来看,如图11所示,可以清楚地看到,DFTNet的误分类像素最少;从综合性能上,DFTNet相比其他方法为最优,且在保证检测精度的同时,浮点运算和参数量与纯卷积网络相比也颇具优势,有更好的轻量化和更快的运算速度,同时,模型在批数大小设为4的情况下,处理图像帧率达53.07 fps,更加适用于工业实际场景,可以实现多种场景下输送带边缘的实时性检测,进而实现多场景下的输送带跑偏检测。
4. 实际运行结果
在现场环境中搭建了如图12所示输送带跑偏监测系统,并应用了DFTNet网络,由于本模型网络处理图像帧率可以达53.07帧/s,实际使用中,我们将摄像头采集到的图像实时实时传输到我们的服务器中进行逐帧处理,处理完毕后通过图像拼接程序还原成实时的跑偏检测图像并显示在前端软件界面,显示结果如图13所示。通过显示界面可以实时显示输送带偏移情况,误差为±0.1 cm,通过实地验证,检测结果与输送带实际跑偏结果一致,证明了DFTNet网络模型的有效性,检测准确率≥90%,具有较好的应用价值。
5. 结 论
1)提出了一种全局与局部信息双流融合的输送带边缘检测网络模型DFTNet,该模型通过将传统卷积神经网络的卷积对局部特征的提取能力与Transformer结构对全局、长距离信息感知能力相结合,能够较好地提高输送带边缘检测精度并抑制输送带图像噪声和背景的干扰,相比纯卷积神经网络HRNet分别提升了25.36%、0.29%与17.70%,相比FCN分别提升了29.5%、0.32%与24.77%,在参数量、计算速度尤其是均交并比等指标上均有较大提升。
2)通过设计CNN和Transformer特征融合模块,形成双流编码器–解码器结构,利用结构的巧妙设计,可以更好地融合全局上下信息,避免了Transformer结构在大规模数据集上预训练,可以灵活调节网络结构,构建了工业输送带数据集,并在数据集上通过大量试验验证,DFTNet取得了最好的模型性能,在保证检测精度的同时,浮点运算和参数量与纯卷积网络相比也颇具优势,有更好的轻量化和更快的运算速度,同时,模型在批数大小设为4的情况下,处理图像帧率达53.07 fps,更加适用于工业实际场景。
3)在后续研究中,将对该模型进一步改进及优化,同时对数据集进行扩充,使模型其更加具有泛化性,可以更加有效地应用到背景更加复杂的工业场景下输送带边缘检测中。
-
表 1 指标混淆矩阵
Table 1 Indicator confusion matrix
真实结果 预测结果 真实标签=True 真实标签=False 预测=True 真阳性TP 假阴性FP 预测=False 假阳性FN 真阴性TN 表 2 本文所制作的数据集介绍
Table 2 Introduction to the datasets produced in this paper
张 数据集 场景1 场景2 场景3 场景4 场景5 合计 训练集 744 141 135 324 132 1476 训练标签集 744 141 135 324 132 1476 测试集 186 33 36 81 33 369 测试标签集 186 33 36 81 33 369 表 3 模型深度消融试验结果
Table 3 Ablation experimental results of module deepth
网络模
型深度均交
并比/%准确
度/%平均调和
平均值/%平均精
确度/%平均召
回率/%浮点运
算量/109参数
量/106c1,c2 91.08 99.48 88.40 91.88 96.22 5.71 28.45 c1,c2,c3 87.10 99.33 85.25 89.31 90.37 7.53 45.40 c1,c2,c3,c4 86.68 99.35 84.91 88.61 90.66 9.78 45.40 表 4 输入图片尺寸消融试验结果
Table 4 Ablation experimental results of input size
输入图
片尺寸均交并比/% 准确度/% 平均调和
平均值/%平均精
确度/%平均召
回率/%64×64 88.02 91.68 88.07 90.37 95.32 128×128 89.13 96.77 88.03 90.39 95.43 256×256 91.08 99.48 88.40 91.88 96.22 512×512 88.21 90.87 87.50 91.00 94.23 表 5 模型大小消融试验结果
Table 5 Ablation experimental results of model scale
网络模
型大小均交
并比/%准确度/% 平均调和
平均值/%平均精
确度/%平均召
回率/%浮点
运算量/109参数
量/106tiny 91.08 99.48 88.40 91.88 96.22 5.71 28.45 small 90.10 98.91 87.85 89.31 96.37 6.60 49.77 base 91.25 99.35 87.21 89.61 96.16 10.78 88.40 表 6 各模型对比试验结果
Table 6 Comparing the experimental results of each model
网络
模型均交
并比/%准确
度/%平均调和
平均值/%平均精
确度/%平均召
回率/%浮点
运算量/109参数
量/106HRNet 65.72 99.19 70.7 87.02 66.76 5.15 10.42 FCN 61.58 99.16 63.63 81.23 62.09 30.79 15.31 UNet 86.01 99.52 84.31 86.7 82.22 23.73 13.40 SegNet 79.06 99.41 87.76 86.55 82.42 26.50 35.00 DeepLab V3 86.87 99.44 85.05 81.41 89.68 31.33 41.68 PSPNet 87.46 99.49 85.53 83.51 87.83 33.96 48.63 DanNet 81.2 99.43 89.92 85.49 85.89 37.86 49.48 BiSeNet V2 66.43 99.22 71.81 80.16 67.45 2.46 3.62 DFTNet 91.08 99.48 88.4 91.88 96.22 5.71 28.45 -
[1] 张 佳,尹君驰,王宏等. 输送带输煤采样技术研究现状及发展趋势[J]. 煤炭科学技术,2022,50(9):200−206. ZHANG Jia,YIN Junchi,WANG Hong,et al. Research status and development trend of conveyor belt coal transport sampling technology[J]. Coal Science and Technology,2022,50(9):200−206.
[2] 王海军, 王洪磊. 基于参数化对数图像处理模型的光照不均匀图像的边缘检测算法[J]. 煤炭科学技术,2022,50(12):225−239. WANG Haijun, WANG Honglei. Status and prospect of intelligent key technologies of belt conveyorrStatus and prospect of intelligent key technologies of belt conveyorr[J]. Coal Science and Technology,2022,50(12):255−239.
[3] 谭 恒,张红娟,靳宝全等. 基于机器视觉的煤矿带式输送机跑偏检测方法[J]. 煤炭技术,2021,40(5):152−156. TAN Heng,ZHANG Hongjuan,JIN Baoquan,et al. Machine vision-based coal mines band-type conveyor running partial detection method[J]. Coal Technology,2021,40(5):152−156.
[4] 徐 欢,李振璧,姜媛媛等. 基于OpenCV的输送带跑偏自动检测算法研究[J]. 工矿自动化,2014,40(9):48−52. XU Huan,LI Zhenyu,JIANG Yuanyuan,et al. Research on automatic detection algorithm based on OpenCV-based conveyor belt running partial test algorithm[J]. Industry and Mining Automation,2014,40(9):48−52.
[5] 韩涛,黄友锐,张立志等. 基于图像识别的带式输送机输煤量和跑偏检测方法[J]. 工矿自动化,2020,46(4):17−22. HAN Tao,HUANG Yirui,ZHANG Lizhi,et al. The coal transmission volume and running test method based on image recognition [J]. Industry and Mining Automation,2014,40 (9):48−52.
[6] LIU Y,Wang Y,Zeng C,et al. Edge detection for conveyor belt based on the deep convolutional network[A]. Proceedings of 2018 Chinese Intelligent Systems Conference[C]. Springer,Singapore,2019:275−283.
[7] LONG J,SHELHAMER E,& DARRELL T. Fully convolutional networks for semantic segmentation[J]. IEEE transactions on pattern analysis and machine intelligence,2016,39(4):474−482.
[8] CHEN L C,PAPANDREOU G,KOKKINOS I,et al. DeepLab:Semantic image segmentation with deep convolutional nets,atrous convolution,and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2018,40(4):834−848. doi: 10.1109/TPAMI.2017.2699184
[9] XIE S,TU Z. Holistically-nested edge detection[A]//Proceedings of the IEEE international conference on computer vision[C]. 2015:1395−1403.
[10] POMA X S,SAPPA A D. Improving edge detection in RGB images by adding NIR channel [A]//2018 14th International Conference on Signal-Image Technology & Internet-Based Systems (SITIS). IEEE,[C]. Las Palmas de Gran Canaria,Spain,2018:266−273.
[11] VASWANI A,SHAZEER N,PARMAR N,et al. Attention is all you need[A]//Advances in neural information processing systems[C]. Long Beach,CA,United states:MIT,2017:5998.
[12] DOSOVITSKIY A,BEYER L,KOLESNIKOV A,et al. An image is worth 16x16 words:Transformers for image recognition at scale[A]. International Conference on Learning Representations[C] Vienna:Springer,2021.
[13] TOUVRON H,CORD M,DOUZE M,et al. Training data-efficient image transformers & distillation through attention[A]//International Conference on Machine Learning. PMLR[C]. 2021:10347−10357.
[14] LIU Z,LIN Y,CAO Y,et al. Swin transformer:Hierarchical vision transformer using shifted windows[A]//Proceedings of the IEEE/CVF International Conference on Computer Vision[C]. Jeju,Korea:IEEE,2021:10012−10022.
[15] HU H,GU J,ZHANG Z,et al. Relation networks for object detection[A]//Proceedings of the IEEE conference on computer vision and pattern recognition[C]. 2018:3588−3597.
[16] HU H,ZHANG Z,XIE Z,et al. Local relation networks for image recognition[A]. Proceedings of the IEEE/CVF International Conference on Computer Vision[C] 2019:3464−3473.
[17] ZHANG. Z,SABUNCU M. Generalized cross entropy loss for training deep neural networks with noisy labels[J]. Advances in neural information processing systems,2018,31:2241−2252.
[18] RONNEBERGER O,FISCHER P,BROX T. U-net:Convolutional networks for biomedical image segmentation[A]. International Conference on Medical image computing and computer-assisted intervention[C] Springer,Cham,2015:234−241.
[19] BADRINARAYANAN. V,KENDALL A,CIPOLLA R. SegNet:A deep convolutional encoder-decoder architecture for image segmentation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(12):2481−2495.
[20] ZHAO H,SHI J,QI X,et al. Pyramid scene parsing network[A]//Proceedings of the IEEE conference on computer vision and pattern recognition[C] Hawaii,2017:2881−2890.
[21] FU J,LIU J,TIAN H,et al. Dual attention network for scene segmentation [A]//Proceedings of the IEEE/CVF conference on computer vision and pattern recognition [C]. Tennessee,2019:3146−3154.
[22] YU C,GAO C,WANG J,et al. Bisenet v2:Bilateral network with guided aggregation for real-time semantic segmentation[J]. International Journal of Computer Vision,2021,129(11):3051−3068. doi: 10.1007/s11263-021-01515-2
-
期刊类型引用(27)
1. 胡俭, 曹乃夫, 毛小娃, 姚海飞, 王科, 徐明伟. 不同分散剂对粉煤灰浆液输送效果影响实验研究. 能源与节能. 2025(07) 百度学术
2. 王胜涛, 唐佳旭, 杨宁, 王青祥, 王石林, 曹旭强, 张新泉, 宋小林, 马驰骋. 粉煤灰直接湿法矿化封存CO_2机制及关键影响因素优化研究. 煤矿安全. 2025(07) 百度学术
3. 尹希文, 于秋鸽, 孙晓冬, 甘志超, 崔勇, 岳海荣, 王志会. 超微纳米气泡特性及其对粉煤灰矿化反应强化机制. 煤炭科学技术. 2025(06) 本站查看
4. 蔡峰,李华琛,封居强. 综放工作面动态注氮参数研究及数值模拟. 华北科技学院学报. 2025(01): 40-47 . 百度学术
5. 陈圣贺,郭帅. 茶多酚阻燃微胶囊复合泡沫凝胶防灭火材料制备及性能研究. 煤炭技术. 2025(03): 239-243 . 百度学术
6. 乔鼎. 可降解多功能抑尘泡沫在水峪煤矿中的应用效果分析. 山西煤炭. 2025(01): 121-128 . 百度学术
7. 李延河,万志军,于振子,苟红,赵万里,周嘉乐,师鹏,甄正,张源. 基于PSO-SVR的掘进工作面风温预测. 煤炭科学技术. 2025(01): 183-191 . 本站查看
8. 秦波涛,马东. 采空区煤自燃与瓦斯复合灾害防控研究进展及挑战. 煤炭学报. 2025(01): 392-408 . 百度学术
9. 史全林,秦波涛,孙永江. 超声处理辅助粉煤灰浸出钙离子矿化CO_2及其产物防灭火特性. 煤炭学报. 2025(02): 1034-1046 . 百度学术
10. 董红娟,张振,刘亚琳. 大掺量粉煤灰矸石混凝土配比优化及应用. 煤炭技术. 2025(05): 1-5 . 百度学术
11. 宋海洲,孙路路,韦节园,张华声,付伟,张晨. 注氮防灭火对煤体孔裂隙结构影响的实验研究. 煤矿现代化. 2025(04): 43-48 . 百度学术
12. 王崇景,杨峰,李可可,刘硕. 复采工作面煤自燃危险区域划分及综合治理技术研究. 煤炭工程. 2024(01): 86-92 . 百度学术
13. 王桐,孟祥豹,张延松,刘丽,吴阳,石磊,吴琦岩. 矿用新型水泥-粉煤灰基喷涂堵漏风材料性能研究. 矿业研究与开发. 2024(03): 225-231 . 百度学术
14. 李晟立,张雷林. 镁铝水滑石泡沫阻燃剂的制备及阻化特性研究. 煤矿安全. 2024(04): 79-87 . 百度学术
15. 王树明. 空气湿度对煤自燃特性及氧化动力学参数的影响研究. 煤矿安全. 2024(04): 98-105 . 百度学术
16. 王涛,董哲,盛禹淮,南凡,杨哲,杨鹏,孟帆,罗振敏. 卤代烷气体灭火剂促进-抑制瓦斯燃爆特性试验. 煤炭科学技术. 2024(04): 265-274 . 本站查看
17. 孟祥宁,梁运涛,郭宝龙,孙勇,田富超. 卤盐阻化剂对煤自燃阻化作用的定量识别及机理. 煤炭科学技术. 2024(06): 132-141 . 本站查看
18. 于秋鸽,尹希文,樊振丽,甘志超,浮耀坤. 基于矿化反应过程三阶段划分的粉煤灰高效矿化方法研究. 煤炭科学技术. 2024(06): 253-260 . 本站查看
19. 李倓,赵恒泽,李晔,赵艺. 固体废弃物制备矿用防灭火复合凝胶研究进展. 煤炭科学技术. 2024(08): 96-105 . 本站查看
20. 奚弦,桑树勋,刘世奇. 煤矿区固废矿化固定封存CO_2与减污降碳协同处置利用的研究进展. 煤炭学报. 2024(08): 3619-3634 . 百度学术
21. 王慧,苏晓军,刘西西,王建,张佳敏. 含XG/HPMC粉煤灰胶体抑制煤自燃特性的实验研究. 煤矿安全. 2024(09): 100-109 . 百度学术
22. 高志新,徐效栋,陈玉,李文林,孙路路. 改性示踪阻化液的渗润-阻化性能研究. 矿业研究与开发. 2024(10): 174-180 . 百度学术
23. 杜常博,程传旺,易富,黄惠杰,孙玮泽,陶晗. 复配表面活性剂对烟煤润湿性影响及微观机理研究. 煤炭科学技术. 2024(11): 346-355 . 本站查看
24. 姜小龙,孙明,常建平,董红娟. 矿井煤自燃防灭火材料阻燃机理综述. 内蒙古科技大学学报. 2024(03): 226-229 . 百度学术
25. 李金虎,黄珏洁,陆伟,徐天硕,汪洋. 煤中高活性含碳固体自由基与煤自燃反应性的相关关系. 煤炭科学技术. 2024(12): 127-142 . 本站查看
26. 周涛,胡振琪,阮梦颖,刘曙光,张驭航. 基于无人机遥感的煤矸石山植被分类. 煤炭科学技术. 2023(05): 245-259 . 本站查看
27. 尹希文,于秋鸽,甘志超,浮耀坤,樊振丽,纪龙. 高钙粉煤灰固碳降碱反应特性及煤矿井下规模化利用新途径. 煤炭学报. 2023(07): 2717-2727 . 百度学术
其他类型引用(11)