高级检索

基于改进型生成对抗网络的矿井图像超分辨重建方法研究

张帆, 刘莹, 宋惠, 张嘉荣, 程海星

张 帆,刘 莹,宋 惠,等. 基于改进型生成对抗网络的矿井图像超分辨重建方法研究[J]. 煤炭科学技术,2025,53(S1):338−345. DOI: 10.12438/cst.2024-0298
引用本文: 张 帆,刘 莹,宋 惠,等. 基于改进型生成对抗网络的矿井图像超分辨重建方法研究[J]. 煤炭科学技术,2025,53(S1):338−345. DOI: 10.12438/cst.2024-0298
ZHANG Fan,LIU Ying,SONG Hui,et al. Super-resolution reconstruction of mine image based on generative adversarial network[J]. Coal Science and Technology,2025,53(S1):338−345. DOI: 10.12438/cst.2024-0298
Citation: ZHANG Fan,LIU Ying,SONG Hui,et al. Super-resolution reconstruction of mine image based on generative adversarial network[J]. Coal Science and Technology,2025,53(S1):338−345. DOI: 10.12438/cst.2024-0298

基于改进型生成对抗网络的矿井图像超分辨重建方法研究

基金项目: 

国家重点研发计划资助项目(2022YFC3004600);国家自然科学基金面上资助项目(52374165);中国矿业大学(北京)教改资助项目(J220401)

详细信息
    作者简介:

    张帆: (1972— ),男,甘肃会宁人,博士,教授,博士生导师。E-mail:zf@cumtb.edu.cn

  • 中图分类号: TP181

Super-resolution reconstruction of mine image based on generative adversarial network

  • 摘要:

    智能化无人开采是煤炭资源绿色、智能、安全、高效开采的技术发展趋势,高分辨率的矿井图像能够为煤矿智能开采和智能监控提供关键技术支撑。针对煤矿井下雾尘环境,目前采用常规的深度学习方法虽然能够提高矿井图像重建效果,但是受井下环境噪声影响,模型训练的稳定性较差,难以获得矿井图像的重建高频信息,导致图像重构质量欠佳,易出现矿井图像模糊和分辨率下降等问题。针对上述问题,提出一种基于生成对抗网络的矿井图像超分辨率重建方法。该方法基于SRGAN网络,对网络结构和损失函数进行改进优化,在生成器的浅层特征提取层和重建层分别采用2个5×5的卷积层,并在浅层特征提取层的每个卷积层后加入非线性激活函数,深层特征提取层采用残差结构,通过级联亚像素卷积层以实现矿井图像不同倍数的超分辨重建;采用Wasserstein距离对损失函数进行改进,并去掉判别器输出层的Sigmoid,使用RMSProp方法对网络进行优化,提高模型训练的收敛速度和稳定性;利用训练好的生成器模型,据此分别对矿井图像进行2倍和4倍超分辨重建,并对实验结果进行主观视觉分析和客观评价。结果表明,与传统的双三次插值、SRCNN、SRGAN相比,在相同缩放因子条件下,所提方法的峰值信噪比分别提升了2.68、1.50和1.59 dB,结构相似性分别提升了0.03340.00480.0061,所提方法能够重建出清晰的矿井图像纹理和细节信息,在主观视觉上以及峰值信噪比和结构相似性上都实现了更好的重建效果,且整体性能优于其他几种方法,有效提高了矿井图像的分辨率。

    Abstract:

    Intelligent unmanned mining of coal mine is the technological development trend of green, intelligent and safe mining of coal resources. High-resolution mine images can provide key technical support for intelligent unmanned mining of coal mine. Aiming at the degradation phenomenon of mine images, in order to improve the resolution of mine images, a super-resolution reconstruction method mine image based on generative adversarial network is proposed. Based on SRGAN, this method improves the network structure and loss function. First, two 5×5 convolutional layers are used in the low-level feature extraction layer and reconstruction layer of the generator, and non-linearity is added after each convolutional layer of the low-level feature extraction layer, and the high-level feature extraction layer adopts the residual structure, and the sub-pixel convolutional layer is cascaded to achieve super-resolution reconstruction of different multiples. Secondly, the Wasserstein distance is used to improve the loss function, and the Sigmoid of the output layer of the discriminator is removed. The RMSProp method is used to improve the network optimization method, which can make the model training more stable. Finally, the trained generator model is used to reconstruct the mine images by 2 times and 4 times super-resolution, and subjective visual analysis and objective evaluation were carried out on the experimental results. The results show that compared with the traditional bicubic interpolation, SRCNN, and SRGAN, when the scaling factor is 4, the peak signal-to-noise ratio of the proposed method is increased by 2.68, 1.50 and 1.59 dB; the structural similarity is increased by 0.0334, 0.0048 and 0.0061. The method proposed achieves better reconstruction results in terms of subjective vision, peak signal-to-noise ratio and structural similarity. The improved method can reconstruct clear texture and detail information, and its overall performance is better than several other methods.

  • 煤矿智能化是实现煤矿绿色安全和智能高效开采的重要技术支撑,也是实现煤炭行业高质量发展的必由之路[1-3]。提高矿井图像的分辨率和图像重构质量可为矿井智能视频监控、目标检测与精准识别等提供关键的数据支持[4]。然而,受煤矿井下雾尘环境因素和成像系统及成像技术的影响,视觉传感器捕获的矿井图像空间分辨率较低,出现灰暗模糊、边缘信息丢失及退化等现象[5-6]。近年来,图像超分辨重建技术是目前图像处理技术领域的重要应用之一,其将低分辨率图像转换为高分辨率图像,目前被广泛应用在工业视频监控、目标检测、视觉跟踪等领域[7]。因此,研究矿井图像超分辨率重建技术,将为矿井智能开采、智能视频监控和目标检测与精准识别提供关键技术支持[4],对提高矿井图像重构质量、推动煤矿智能化技术发展具有重要意义[8]

    图像超分辨重建技术可以分为2大类,传统的图像重建技术和基于深度学习的超分辨技术。传统的方法如双线性和双三次方法,计算成本低且易于部署,然而,其在重建图像中生成过于平滑的纹理,通常无法重建图像的原始信息。此外,传统的方法还包括基于重建的方法,如迭代反投影法和凸集投影法,通过引入先验信息,增加图像重建的约束条件,以实现更好的重建效果,但是收敛速度较慢。FAN等[9]提出基于最大后验概率算法的矿井图像超分辨重建技术,与传统的插值方法相比,重建图像避免了锯齿效应和整体模糊,但是难以满足煤矿智能化开采的要求。XU等[10]采用传统重建方法与残差重建相结合的混合重建框架,以提高矿井监控视频序列的整体重建效果。现有的传统超分辨方法重建效果一般,无法有效提升矿井图像的重建质量。传统的基于学习的方法如邻域嵌入法和稀疏表示法,不易计算,复杂度也较高。

    近年来,针对传统算法中存在的固有缺陷,基于深度学习的超分辨率重建方法为解决这些问题提供了新思路。2014年,DONG等[11]提出的基于卷积神经网络的超分辨方法SRCNN显著提高了图像的质量。卷积神经网络能够提取出图像的深层特征[12],重建出的图像拥有丰富的细节信息。卷积神经网络相比于传统的方法,重建效果更好,但是当重建倍数较大时,CNN难以恢复精细的细节。之后,更多的基于CNN的模型被提出,如利用残差模块构造深层的超分辨率网络模型[13-14]。基于深度学习的超分辨重建方法,能够学习低分辨率图像与高分辨率图像之间端到端的映射关系,相比于传统的重建方法,重建效果更好。程德强等[4]提出一种融合层次特征和注意力机制的超分辨方法,用于对矿井图像进行超分辨重建,促进矿井图像的高频信息和边缘细节信息的重建。超分辨重建技术能够从低分辨率图像中重建出高分辨率图像,基于深度学习的超分辨方法能够提高矿井图像的分辨率,同时不受缩放的限制,对低分辨率图像进行处理。因此,研究基于深度学习的矿井图像超分辨率重建方法,对提高矿井智能、绿色、安全、高效开采技术具有十分重要的意义[14-15]

    目前,基于深度学习的超分辨重建方法,主要利用深度卷积神经网络提高重建收敛速度,并通过最小化原始图像和重建图像之间的损失误差来提高图像质量。深度卷积神经网络使重建效率得到较大提高,但是低分辨率图像中的高频信息依然难以重建。近年来,基于生成对抗网络(GAN)的图像处理技术迅速发展[16-20],GAN在多个技术领域得到广泛应用。有研究者提出利用生成对抗网络,采用生成技术的方法从低分辨率图像恢复出清晰的高分辨率图像。XIONG等[21]提出了ISRGAN,该网络为改进的SRGAN,通过改进SRGAN的网络结构和损失函数,使网络训练更加稳定。GUO等[22]对SRGAN模型中残差块的内外连接结构和损失函数进行改进,来生成更加真实可靠的纹理。上述改进的SRGAN[23]重建方法中,SRGAN的网络构成是以卷积神经网络为基础,利用残差结构的残差块和跳跃连接来进行深度学习,并使用批归一化进行处理,从而提高了学习的速度,解决了梯度消失问题,同时,也通过感知损失函数使图像的纹理信息得到改善。与此同时,有学者提出了增强型超分辨生成对抗网络ESRGAN(Enhanced SRGAN)[24],该网络基于SRGAN模型,去掉了批量归一化并添加了密集块,为了加强残差学习,ESRGAN采用了全局残差连接的方式。目前,尽管基于生成对抗网络的图像超分辨技术拥有出色的数据生成能力,但是在噪声环境下模型训练的稳定性仍面临技术难题。

    煤矿井下雾尘弱光环境,获取的矿井图像分辨率较低,而且矿井图像受井下噪声环境、成像设备以及数据传输方式的影响,纹理边缘信息容易出现模糊现象。然而,利用超分辨重建方法在重建低分辨率矿井图像时,需要进行较大倍数的重建,目前采用常规的深度学习方法可以提高重建效率,但是在井下噪声环境下模型训练的稳定性差,难以获得矿井图像的重建高频信息,导致图像重构质量欠佳,出现图像模糊和退化等问题。

    针对上述问题,笔者基于SRGAN网络模型和超分辨成像理论,提出一种基于改进的SRGAN的矿井图像超分辨重建方法。首先,为提高模型对图像中高频信息的重建能力,目标函数采用由内容损失、对抗损失和$ {L}_{1} $损失构成的混合损失,提升模型提取和重建高频信息的能力。其次,通过对浅层特征提取层和重建层分别进行改进,并在浅层特征提取层的每个卷积层后加入非线性激活函数,在减少参数量和增加非线性的同时,依然具有较好的特征提取和重建能力;深层特征提取层采用残差结构,通过级联亚像素卷积层以实现矿井图像不同倍数的超分辨重建,并通过实验验证了矿井图像重建效果。

    笔者提出一种改进的SRGAN网络来对矿井图像进行超分辨重建。该网络主要由生成器和判别器构成,生成器用于重建矿井图像,判别器用于判断输入的图像是原始图像还是重建图像。并对SRGAN网络结构和损失函数进行了改进。如图1图2所示,其中图1为生成器网络结构,图2为判别器网络结构。具体包括:

    图  1  生成器网络结构
    Figure  1.  Generator network structure
    图  2  判别器网络结构
    Figure  2.  Discriminator network structure

    1)改进SRGAN网络生成器。对SRGAN网络生成器部分的浅层特征提取层和重建层分别采用2个5$ \times $5的卷积层来模拟9$ \times $9卷积层,并在浅层特征提取层的每个卷积层后都加入非线性函数,以减少网络训练的参数量和提升网络收敛速度。

    2)改进SRGAN网络的损失函数。采用Wasserstein距离对SRGAN网络的损失函数进行改进,将判别器的二分类问题转化为回归问题;网络训练中采用RMSProp方法作为网络的优化方法。通过改进SRGAN网络,使模型训练更加稳定以及图像重建效果更好。

    在改进的SRGAN网络生成器中,矿井图像以尺寸为宽度$ \times $高度$ \times $彩色通道数($ W{ \times H \times C} $)作为输入,并通过一系列卷积层输出一个尺寸为$ rW{\times rH\times C} $的高分辨图像。生成网络由浅层特征提取层、深层特征提取层和重建层构成。

    在特征提取部分,首先使用2个5$ \times $5的卷积层来提取输入的低分辨率图像的浅层特征,其中,输入的低分辨率图像大小为$ W\times H $,通道数为3,提取出的浅层特征尺寸为$ W\times H $,通道数为64;之后通过残差块进行深层特征提取,如图3所示,每个残差块中包含2个3$ \times $3的卷积层,卷积层后接批规范化层和PReLU作为激活函数。图4为深层特征提取层中残差块的连接结构,最终提取出的特征尺寸为$ W\times H $,通道数为64。

    图  3  残差块结构
    Figure  3.  Residual block structure
    图  4  残差块的连接结构
    Figure  4.  Connection structure of residual block

    在重建层中,首先进行上采样操作,通过亚像素卷积实现上采样。图5为亚像素卷积操作示意图,其中r为上采样倍数。如图6所示,每个亚像素卷积层可实现2倍的上采样,通过级联$ n $个亚像素卷积层,可以实现$ {2}^{n} $倍上采样,输出的特征尺寸为$ {2}^{n}W\times {2}^{n}H $,通道数为64。接下来通过2个5$ \times $5的卷积层来重建图像,最终输出尺寸大小为$ {2}^{n}W\times {2}^{n}H $,通道数为3的图像,实现了图像的$ {2}^{n} $倍超分辨重建。在实验中,包括2倍超分辨重建和4倍超分辨重建,$ n $取值分别为1和2。在生成网络中首先通过卷积网络提取图像的特征,然后通过亚像素卷积层提升特征的尺寸,最后通过重建层的卷积网络实现图像的超分辨重建。

    图  5  亚像素卷积操作
    Figure  5.  Operation of subpixel convolution
    图  6  上采样层
    Figure  6.  Upsampling layer

    图像超分辨技术旨在提高图像的分辨率,可以通过上采样操作实现。生成网络中通过引入残差模块、亚像素卷积等来实现图像的特征提取与重建,将输入的低分辨率图像重建为高分辨率图像。重建过程中的关键是上采样方式,转置卷积通过对输入图像进行填零扩展操作,然后再进行卷积操作得到高分辨率图像,大量的填零操作会导致无效的上采样学习;亚像素卷积是将多个特征图组合成一个,能够充分利用图像的特征信息,从而降低图像重建过程中的损失。笔者采用后上采样方式构建上采样网络框架,首先将低分辨率图像输入到卷积网络进行特征提取,随后在网络末端通过亚像素卷积提升图像分辨率。通过级联亚像素卷积层的方式,逐步提高特征层的尺寸,直至实现所需放大倍数的特征层尺寸。

    判别网络包含8个卷积层,首先使用包含64个$ \text{3×3} $的卷积核的卷积层,之后使用了7个卷积层对图像进行特征提取,这7个卷积层中每1层包含1个卷积操作、归一化以及Leaky ReLU激活函数,最后使用2个全连接层。随着网络层数的加深,特征个数不断增加,特征尺寸不断减小,其中激活函数使用Leaky ReLU,该方法与ReLU不同的是,允许存在一个小的正梯度,在$ x < 0 $时取$ f\left(x\right)=\alpha x $,其中$ \alpha $取值为0.2。当$ x < 0 $时,依然存在一个小的正梯度,避免了梯度消失,从而产生更好的训练效果。此外,网络的末端使用了2个全连接层进行输出。由于判别网络采用Wasserstein距离作为损失函数,不需要进行二分类,是一个回归问题。

    目标函数采用混合损失函数,其包含3种损失:内容损失、对抗损失和$ {L}_{1} $损失。其中,内容损失用于判断该生成对抗网络是否是在对原始图像进行超分辨重建,通过缩小高分辨率图像卷积后的特征与超分辨生成图像卷积后的特征之间的差异,以实现逼真重建效果;对抗损失则是判断生成的图像是否真实。内容损失侧重图像内容,而对抗损失侧重图像的细节部分。$ {L}_{1} $损失属于像素损失,以提升重建图像的峰值信噪比。

    采用Wasserstein距离作为对抗损失函数,用来计算生成数据与真实数据的差别。Wasserstein GAN(WGAN)[25]是一种通过Wasserstein距离来优化训练的生成对抗网络。文中的生成对抗网络模型中,判别器损失函数采用对抗损失,生成器损失函数采用混合损失。生成器和判别器的目标都是最小化损失函数,对抗损失的计算公式为

    $$ {L_D} = - E[D({I^{{\mathrm{HR}}}})] + E[D(G({I^{{\mathrm{LR}}}}))] $$ (1)

    式中:$ {L}_{\mathrm{D}} $为模型中判别器的损失函数;$ {I}^{\mathrm{H}\mathrm{R}} $为真实的图像数据;$ G\left({I}^{\mathrm{L}\mathrm{R}}\right) $为生成器重建出的图像。混合损失计算公式为

    $$ {L_G} = {10^{ - 2}}L_{\mathrm{X}}^{{\mathrm{SR}}} + {10^{ - 3}}L_{\mathrm{G}}^{{\mathrm{WGAN}}} + {L_1} $$ (2)
    $$ {L_1} = \frac{1}{N}\mathop \sum \nolimits_{i = 1}^N \parallel {x_i} - \widehat {{x_i}}\parallel $$ (3)
    $$ L_{\mathrm{G}}^{{\mathrm{WGAN}}} = - E[D(G({I^{{\mathrm{LR}}}}))] $$ (4)
    $$ L_{\mathrm{X}}^{{\mathrm{SR}}} = L_{{\mathrm{VGG}}/i,j}^{{\mathrm{SR}}} $$ (5)
    $$ \begin{split} L_{{\mathrm{VGG}}/i,j}^{{\mathrm{SR}}} =& \frac{1}{{{W_{i,j}}{H_{i,j}}}}\mathop \sum \nolimits_{x = 1}^{{W_{i,j}}} \mathop \sum \nolimits_{y = 1}^{{H_{i,j}}} ({\varphi _{i,j}}{({I^{{\mathrm{HR}}}})_{x,y}} -\\& {\varphi _{i,j}}{({G_{{\theta _{\mathrm{G}}}}}({I^{{\mathrm{LR}}}}))_{x,y}}{)^2} \end{split} $$ (6)

    式中:$ {L}_{\mathrm{G}} $为模型中生成器的损失函数;$ {L}_{\mathrm{X}}^{\mathrm{S}\mathrm{R}} $为内容损失;$ {L}_{\mathrm{G}}^{\mathrm{W}\mathrm{G}\mathrm{A}\mathrm{N}} $为WGAN的损失函数简化后的生成损失;$ {L}_{1} $是生成图像与真实图像间的平均绝对误差;$ N $为像素个数;$ \varphi (\cdot ) $为特征提取函数;$ {G}_{{\mathrm{\theta }}_{\mathrm{G}}}\left({I}^{\mathrm{L}\mathrm{R}}\right) $为生成器网络根据低分辨率图像$ {I}^{\mathrm{L}\mathrm{R}} $生成的高分辨率图像;$ W\times H $为特征图的总像素数量。生成器和判别器的目标是使$ {L}_{\mathrm{G}} $和$ {L}_{\mathrm{D}} $的值尽可能地小。

    为验证所提方法及网络模型的有效性和可靠性,在相同实验环境及设备配置下进行仿真实验。实验硬件环境采用处理器为Intel(R) Xeon(R) Silver 4215R CPU @ 3.20 GHz *2、内存为64 G、显卡为NVIDIA RTX 4090的16核服务器;深度学习框架采用Pytorch 1.8.1,利用Python3.10进行编程。

    本实验的训练数据集包括某矿井的监控视频序列中的图像、煤矿井下公共数据集CMUID[4]和部分COCO数据集。其中,训练数据集中矿井图像和COCO数据集的比例为1∶3,并对6 000张矿井图像进行分割,将其裁剪为256×256像素的高分辨率图像,然后通过双三次降采样$N$倍得到低分辨率图像,再将高分辨率和低分辨率图像组成图像对用于训练。

    实验中,基于所提出的改进型生成对抗网络超分辨模型,对生成器和判别器进行交替训练。在生成器模型中输入数据为$N$倍下采样后的低分辨率图像,并进行归一化,$N$取值分别为2和4,经过系列卷积后,最后生成1幅与原始高分辨率图像大小一致的图像。模型训练的batch size为16,初始化学习率为0.0002,共计训练1000个周期。使用RMSProp优化算法来更新生成器和判别器的参数使超分辨模型收敛。网络训练完成后,生成器能够将输入的低分辨率图像重建为$N$倍分辨率的图像。

    为了进一步验证提出的矿井图像重建方法的性能,需要对重建图像的边缘、纹理方面进行主观视觉分析。本节选取了井下运输和设备图像,当缩放因子为4时,将所提方法与Bicubic、SRCNN[11]和SRGAN[23]等重建方法进行实验对比。通过将低分辨率图像分别输入到训练好的重建模型进行4倍超分辨重建,对重建结果进行评价。重建实验结果对比结果如图7图8所示。

    图  7  运输图像$ \times $4重建效果对比
    Figure  7.  Comparison of $ \times $4 reconstruction effect of mine image about transportation
    图  8  设备图像$ \times $4重建效果对比
    Figure  8.  Comparison of $ \times $4 reconstruction effect of mine image about equipment

    由上述实验结果可知,Bicubic重建出的矿井图像处于细节模糊的状态;SRCNN方法重建出的纹理特征较少,不够丰富;而所提方法与SRGAN方法重建出的矿井图像纹理清晰,细节丰富。相比Bicubic和SRCNN方法,所提方法具有更多的细节信息,重建效果更好。相比于SRGAN方法,所提方法重建出的矿井图像边缘纹理更加清晰,可以较好地重建矿井图像。

    为了评估所提方法的重建效果,通过使用峰值信噪比(peak signal-to-noise ratio, PSNR)和结构相似性(structural similarity, SSIM)对矿井图像重建结果进行性能评价。

    在相同实验环境条件下,进一步对比经典的Bicubic、SRCNN、SRGAN算法和所提方法在模型重建方面的效果,通过计算上述方法重建图像的PSNR和SSIM,从客观角度进一步对比其效果。研究表明,PSNR是表征图像质量的关键技术指标,PSNR值越大,目标重建图像的质量越好。SSIM是一种用于量化图像质量下降程度的感知指标,SSIM值越大,图像重建质量越高。

    表1为各超分辨方法对2幅矿井图像进行重建后的PSNR和SSIM指标对比。由表可知,所提方法在2幅图像上的重建性能都超越了其他几种方法。当缩放因子为4时,所提方法的峰值信噪比和结构相似性明显优于其他方法。

    表  1  缩放因子为2倍和4倍时各超分辨方法对2幅具体图像的PSNR (dB)和SSIM对比
    Table  1.  Comparison of PSNR (dB) and SSIM of each algorithm in scaling factor of 2, 4 times for two specific images
    放大倍数方法图7图8
    PSNR/SSIMPSNR/SSIM
    $ \times $2bicubic28.7964/0.953030.0543/0.9424
    SRCNN29.5337/0.956131.3353/0.9536
    SRGAN29.0956/0.946231.0285/0.9481
    Ours30.0501/0.955631.6182/0.9669
    $ \times $4bicubic26.6970/0.805225.8565/0.8947
    SRCNN27.1307/0.917327.2514/0.9230
    SRGAN27.3557/0.886226.1742/0.9167
    Ours28.5752/0.934828.8288/0.9384
    下载: 导出CSV 
    | 显示表格

    图9图10分别给出了缩放因子为2和4时Bicubic、SRCNN、SRGAN和所提方法在测试集上的实验结果。由图9可知,当缩放因子为2时,所提方法比Bicubic、SRCNN方法的重建图像PSNR值分别高3.71 dB、2.12 dB,比SRGAN高1.83 dB。在结构相似性上,所提方法比Bicubic、SRCNN、SRGAN分别大0.04380.01750.0051。由图10可知,当缩放因子为4时,所提方法比Bicubic的峰值信噪比高出2.68 dB,比SRCNN的峰值信噪比高出1.50 dB,比SRGAN高出1.59 dB;在结构相似性上,所提方法比Bicubic高出0.0334,比SRCNN高出了0.0049,比SRGAN高出0.0061。基于低分辨率矿井图像的2倍和4倍超分辨重建,所提方法在PSNR和SSIM上,相比于其他3种方法,具有更好的重建结果。

    图  9  缩放因子为2的PSNR和SSIM实验结果比较
    Figure  9.  Comparison of experimental results for PSNR and SSIM in scaling factor of 2 times
    图  10  缩放因子为4的PSNR和SSIM实验结果比较
    Figure  10.  Comparison of experimental results for PSNR and SSIM in scaling factor of 4 times

    图9图10可知,当缩放因子为4时,超分辨评价指标的值偏低,重建难度更大。但与其他方法相比,在缩放因子为4倍时,所提方法的PSNR和SSIM值仍然最高。

    上述结果表明,在相同实验环境条件下,采用2倍和4倍超分辨分别重建矿井图像,所提方法的PSNR值和SSIM值最优,相比于其他3种方法,该方法具有更好的重建结果。

    1) 提出了一种基于生成对抗网络的矿井图像超分辨率重建方法,通过训练好的生成器模型来实现矿井图像的超分辨重建。首先通过生成器的特征提取网络提取图像的特征,然后在重建层通过亚像素卷积将特征尺寸放大并通过卷积网络重建为高分辨率图像。

    2) 建立了基于改进的SRGAN的超分辨重建模型,通过改进SRGAN的网络结构和采用Wasserstein距离优化损失函数,并使用RMSProp方法对网络进行优化,使模型训练更加稳定且具有更好的重建效果。

    3) 由于笔者采用的图像退化方法是双三次降采样,现实情况中,图像的退化受设备、环境到网络传输等多种因素影响,期望在今后研究中建立更接近煤矿实际情况的图像退化模型,有利于提高模型的鲁棒性。

  • 图  1   生成器网络结构

    Figure  1.   Generator network structure

    图  2   判别器网络结构

    Figure  2.   Discriminator network structure

    图  3   残差块结构

    Figure  3.   Residual block structure

    图  4   残差块的连接结构

    Figure  4.   Connection structure of residual block

    图  5   亚像素卷积操作

    Figure  5.   Operation of subpixel convolution

    图  6   上采样层

    Figure  6.   Upsampling layer

    图  7   运输图像$ \times $4重建效果对比

    Figure  7.   Comparison of $ \times $4 reconstruction effect of mine image about transportation

    图  8   设备图像$ \times $4重建效果对比

    Figure  8.   Comparison of $ \times $4 reconstruction effect of mine image about equipment

    图  9   缩放因子为2的PSNR和SSIM实验结果比较

    Figure  9.   Comparison of experimental results for PSNR and SSIM in scaling factor of 2 times

    图  10   缩放因子为4的PSNR和SSIM实验结果比较

    Figure  10.   Comparison of experimental results for PSNR and SSIM in scaling factor of 4 times

    表  1   缩放因子为2倍和4倍时各超分辨方法对2幅具体图像的PSNR (dB)和SSIM对比

    Table  1   Comparison of PSNR (dB) and SSIM of each algorithm in scaling factor of 2, 4 times for two specific images

    放大倍数方法图7图8
    PSNR/SSIMPSNR/SSIM
    $ \times $2bicubic28.7964/0.953030.0543/0.9424
    SRCNN29.5337/0.956131.3353/0.9536
    SRGAN29.0956/0.946231.0285/0.9481
    Ours30.0501/0.955631.6182/0.9669
    $ \times $4bicubic26.6970/0.805225.8565/0.8947
    SRCNN27.1307/0.917327.2514/0.9230
    SRGAN27.3557/0.886226.1742/0.9167
    Ours28.5752/0.934828.8288/0.9384
    下载: 导出CSV
  • [1] 陈伟华,南鹏飞,闫孝姮,等. 基于深度学习的采煤机截割轨迹预测及模型优化[J]. 煤炭学报,2020,45(12):4209−4215.

    CHEN Weihua,NAN Pengfei,YAN Xiaoheng,et al. Prediction and model optimization of shearer memory cutting trajectory based on deep learning[J]. Journal of China Coal Society,2020,45(12):4209−4215.

    [2] 王国法,杜毅博. 煤矿智能化标准体系框架与建设思路[J]. 煤炭科学技术,2020,48(1):1−9.

    WANG Guofa,DU Yibo. Coal mine intelligent standard system framework and construction ideas[J]. Coal Science and Technology,2020,48(1):1−9.

    [3] 王国法,徐亚军,张金虎,等. 煤矿智能化开采新进展[J]. 煤炭科学技术,2021,49(1):1‒10.

    WANG Guofa,XU Yajun,ZHANG Jinghu,et al. New development of intelligent mining in coal mines[J]. Coal Science and Technology,2021,49(1):1‒10.

    [4] 程德强,陈杰,寇旗旗,等. 融合层次特征和注意力机制的轻量化矿井图像超分辨率重建方法[J]. 仪器仪表学报,2022,43(8):73−84.

    CHENG Deqiang,CHEN Jie,KOU Qiqi,et al. Lightweight super-resolution reconstruction method based on hierarchical features fusion and attention mechanism for mine image[J]. Chinese Journal of Scientific Instrument,2022,43(8):73−84.

    [5] 韩冉,曾广淼,王荣杰. 基于残差块网络的图像去雨算法[J]. 仪器仪表学报,2021,42(8):175−182.

    HAN Ran,ZENG Guangmiao,WANG Rongjie. An image Derain algorithm based on the residual block network[J]. Chinese Journal of Scientific Instrument,2021,42(8):175−182.

    [6] 曹现刚,郝朋英,王鹏,等. 多因素光照条件下高质量煤矸图像获取方法研究[J]. 煤炭科学技术,2023,51(1):455−463.

    CAO Xiangang,HAO Pengying,WANG Peng,et al. Research on method of acquiring high quality coal gangue images under multi-factor illumination condition[J]. Coal Science and Technology,2023,51(1):455−463.

    [7] 程德强,陈亮亮,蔡迎春,等. 边缘融合的多字典超分辨率图像重建算法[J]. 煤炭学报,2018,43(7):2084−2090.

    CHENG Deqiang,CHEN Liangliang,CAI Yingchun,et al. Image super-resolution reconstruction based on multi-dictionary and edge fusion[J]. Journal of China Coal Society,2018,43(7):2084−2090.

    [8] 程德强,钱建生,郭星歌,等. 煤矿安全生产视频AI识别关键技术研究综述[J]. 煤炭科学技术,2023,51(2):349−365.

    CHENG Deqiang,QIAN Jiansheng,GUO Xingge,et al. Review on key technologies of AI recognition for videos in coal mine[J]. Coal Science and Technology,2023,51(2):349−365.

    [9]

    FAN G L,WANG Z C,ZHAO Y Q. Super-resolution reconstruction of underground mine surveillance images based on MAP[J]. Applied Mechanics and Materials,2011,109:457−461. doi: 10.4028/www.scientific.net/AMM.109.457

    [10]

    XU Y G,XUE Y Z,HUA G,et al. An adaptive distributed compressed video sensing algorithm based on normalized bhattacharyya coefficient for coal mine monitoring video[J]. IEEE Access,2020,8:158369−158379. doi: 10.1109/ACCESS.2020.3020140

    [11]

    DONG C,LOY C C,HE K M,et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2016,38(2):295−307. doi: 10.1109/TPAMI.2015.2439281

    [12]

    YANG W M,ZHANG X C,TIAN Y P,et al. Deep learning for single image super-resolution:A brief review[J]. IEEE Transactions on Multimedia,2019,21(12):3106−3121. doi: 10.1109/TMM.2019.2919431

    [13]

    HE K M,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2016:770‒778.

    [14] 张帆,徐志超. 基于残差神经网络的矿井图像重构方法[J]. 煤炭学报,2019,44(11):3614−3624.

    ZHANG Fan,XU Zhichao. A mine image reconstruction method based on residual neural network[J]. Journal of China Coal Society,2019,44(11):3614−3624.

    [15] 张帆,闫秀秀. 基于DFT基的矿井视频监控图像分块压缩感知方法[J]. 传感技术学报,2017,30(1):94−100. doi: 10.3969/j.issn.1004-1699.2017.01.018

    ZHANG Fan,YAN Xiuxiu. The block compressed sensing of mine monitoring images based on DFT basis[J]. Chinese Journal of Sensors and Actuators,2017,30(1):94−100. doi: 10.3969/j.issn.1004-1699.2017.01.018

    [16]

    CHEN Y H,SHI F,CHRISTODOULOU A G,et al. Efficient and accurate MRI super-resolution using a generative adversarial network and 3D multi-level densely connected network[M]//Medical image computing and computer assisted intervention–MICCAI 2018. Cham:Springer International Publishing,2018:91‒99.

    [17]

    MAHAPATRA D,BOZORGTABAR B,GARNAVI R. Image super-resolution using progressive generative adversarial networks for medical image analysis[J]. Computerized Medical Imaging and Graphics,2019,71:30−39. doi: 10.1016/j.compmedimag.2018.10.005

    [18]

    WANG Y F,PERAZZI F,MCWILLIAMS B,et al. A fully progressive approach to single-image super-resolution[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway,NJ:IEEE,2018:977‒97709.

    [19]

    ZHANG W L,LIU Y H,DONG C,et al. RankSRGAN:Generative adversarial networks with ranker for image super-resolution[C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). IEEE,2019:3096‒3105.

    [20]

    YUAN Y,LIU S Y,ZHANG J W,et al. Unsupervised image super-resolution using cycle-in-cycle generative adversarial networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Piscataway,NJ:IEEE,2018.

    [21]

    XIONG Y F,GUO S X,CHEN J S,et al. Improved SRGAN for remote sensing image super-resolution across locations and sensors[J]. Remote Sensing,2020,12(8):1263. doi: 10.3390/rs12081263

    [22]

    GUO J F,LV F C,SHEN J Y,et al. An improved generative adversarial network for remote sensing image super-resolution[J]. IET Image Processing,2023,17(6):1852−1863. doi: 10.1049/ipr2.12760

    [23]

    LEDIG C,THEIS L,HUSZÁR F,et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Piscataway,NJ:IEEE,2017:105‒114.

    [24]

    WANG X T,YU K,WU S X,et al. ESRGAN:enhanced super-resolution generative adversarial networks[M]//Computer vision–ECCV 2018 workshops. Cham:Springer International Publishing,2019:63‒79.

    [25]

    ARJOVSKY M,CHINTALA S,BOTTOU L. Wasserstein generative adversarial networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney:JMLR,2017.

图(10)  /  表(1)
计量
  • 文章访问数:  37
  • HTML全文浏览量:  10
  • PDF下载量:  18
  • 被引次数: 0
出版历程
  • 收稿日期:  2024-03-10
  • 网络出版日期:  2025-04-28
  • 刊出日期:  2025-05-31

目录

/

返回文章
返回