摘要
深度学习在一定程度上解决了从低分辨率图像中恢复出高分辨率图像这一图像超分辨率问题。目前基于生成对抗网络(generative adversarial network,GAN)的方法可以从超分辨率数据集中学习低/高分辨率图像映射关系,从而生成具有真实纹理细节的超分辨率图像。然而,基于GAN的图像超分辨率模型训练通常不稳定,其结果往往带有纹理扭曲和噪声等问题,提出了采用掩膜(mask)模块以辅助对抗网络训练。在网络训练过程中,掩膜模块根据生成网络输出的超分辨率结果和原始高分辨率图像,计算得到相应观感质量信息,并进一步辅助对抗网络训练。在实验中对3个最近提出的基于GAN的图像超分辨率模型进行修改,引入掩膜模块,修改后的模型在超分辨率图像输出的观感和真实感量化指标上均有明显地提升。掩膜模块的优点是可以进一步提升基于GAN的图像超分辨率网络输出的超分辨率图像观感质量,并仅需对生成对抗网络训练框架进行修改,因此适用于多数基于GAN的图像超分辨率模型的进一步优化。
单张图像超分辨率任务(以下简称为图像超分辨率)是计算机视觉领域广泛研究的问题之一。目前,该问题在监控安防和社交网络等方面也有着较高价值。 图像超分辨率任务目标是从分辨率受限的单张图像中生成具有较高观感质量的高分辨率图像。基于深度学习的图像超分辨率方法利用深度神经网络优势,通过恢复从低分辨率图像到高分辨率图像的非线性映射,获得了较好的超分辨率图像结果。但是,由于低分辨率图像本身采样不足而丢失较多高频信息,因此也无法获得与真实高分辨率图像相当的纹理细节,其仍然有着很大的优化空间。
目前,流行的大多数基于深度学习的图像超分辨率模型,大致可以分为面向峰值信噪比(peak signal-to-noise ratio,PSNR)的网络和基于生成对抗网络(generative adversarial network,GAN)的模型。峰值信噪比的计算依赖于2张图像之间的均方误差,因此可用于量化超分辨率图像的恢复水平。 SRCN
基于Goodfellow等
在此基础上,提出了一种新颖的,用以辅助基于GAN的图像超分辨率模型方法。通过使用掩膜(mask)模块来辅助对抗网络训练,将更多与真实感相关的信息纳入对抗网络中,获得更好的超分辨率结果。掩膜的计算依赖于生成网络所得到的超分辨率图像和对应的原始高分辨率图像。通过将掩膜引入鉴别器可以更好地帮助生成网络,恢复低分辨率图像输入中潜在的高频分量。以图像超分辨率网络ESRGA

图 1 掩膜模块在生成对抗网络训练框架中的位置(以图像超分辨率网络ESRGAN为例,4倍超采样)
Fig. 1 The position of the mask module in GAN framework (Taking ESRGAN as an example, with 4 times super resolution)
1) 提出了掩膜模块用以辅助基于GAN的图像超分辨率网络训练。该方法仅对生成对抗网络训练框架进行修改,因此适合应用到很多现有的此类模型上,以进一步提升超分辨率效果;
2) 全面分析并解释了面向PSNR和基于GAN的图像超分辨率网络模型,其本身结构所带来的优缺点,以及超分辨率结果中相应的特征。
常见的基于GAN的图像超分辨率模型的损失函数通常包括均方误差损失项以及GAN损失项,并具有如下形式
。 | (1) |
网络从对应的低/高分辨率图像数据集中学习映射关系,生成网络的输入为低分辨率图像,输出为超分辨率图像。随后超分辨率图像传入对抗网络,通过鉴别器判断图像为真实图像的概率。生成网络的优化目标是降低超分辨率结果和对应的高分辨率图像之间的均方误差损失,以及提升超分辨率结果被鉴别器判断为真实图像的概率。
一个标准的图像超分辨率神经网络通常需要一个包含了大量的真实高分辨率图像的数据集。定义该数据集为
(2) |
定义1.在数据集中的等价关系,表示为“可以降采样至无法区分的低分辨率图像。”
等价关系是二元关系,并且具有自反性(reflexive)、对称性(symmetric)、和传递性(transitive)。在数据集中任意采样2张图像和,可观察到:
1) (自反性);
2) 当且仅当 (对称性);
3) 如果而且,则(传递性)。
从数据集中采样的图像的等价类可以表示成
(3) |
从等价类的表达式中可以看出,图像的等价类由相似的高分辨率图像所组成,中的元素和有着不可区分的降采样结果。

图 2 等价类的概念图示
Fig. 2 Diagram of the image equivalence class
根据选择的损失函数不同,网络训练得到的超分辨率结果也不同。网络的最优参数集通常以最小化在特定数据集中的经验误差得到。在数据集中,有
(4) |
这里,是网络定义的损失函数。面向PSNR的图像超分辨率网络通常以均方误差损失项为主,在数据集上进行训练可以得到的最优参数集为
(5) |
其中:网络;是该网络本身所提供的训练参数;对中的高分辨率图像进行降采样,得到相应的低分辨率图像。通过降低网络所输出的超分辨率图像和之间的均方误差损失项,从而提升超分辨率图像的重建精度。
根据等价类的定义,分析
= | (6) |
其中:网络的输入为中的高分辨率图像的降采样;根据等价类的定义,中的图像或区域均可以解释该低分辨率输入。优化均方误差的过程将结果收敛至期望值,即。网络所引入的误差和期望与样本之间的误差总和为。对于输入图像,网络所生成的超分辨率结果和原始高分辨率图像之间的误差并不能通过网络更为充分的训练来消除。其下界为输入图像对应的等价类方差。即
(7) |
通过网络实际生成的结果也可以验证
基于GAN的图像超分辨率模型的损失函数通常包括均方误差损失项和GAN损失项。均方误差损失项提升了超分辨率结果的重建精度,但不可避免地损失了一定的高频信息;GAN损失项可以更好地引导生成网络计算,得到具有真实感的超分辨率结果,但通常包含难以避免的纹理扭曲和噪点等特征。
进一步提出掩膜的概念,将对超分辨率图像的真实感估计,封装成辅助对抗网络训练的模块。结合
。 | (8) |
其中:为掩膜模块的相应参数;掩膜的数值范围为,并对超出的该范围的数值进行截断处理。由上述讨论可知,掩膜数值较小的区域,均方误差较小,对应的等价类方差较小,因此超分辨率结果所在的等价类的期望,可以较好地解释网络输入的低分辨率图像。反之,则需要引入对抗网络训练,以增强超分辨率结果的真实感。因此掩膜数值较大的区域,GAN损失项系数较大。在超分辨率结果输入到对抗网络之前,计算相应的掩膜,并且和超分辨率结果进行乘积,以有效约束GAN损失项在不同图像区域中的作用强度(具体流程见

图 3 超分辨率GAN框架中集成掩膜模块的流程图
Fig. 3 Pipeline for integrating mask module into super resolution GAN framework
笔者挑选了目前效果较好的3个基于GAN的图像超分辨率模型。通过比较应用掩膜模块前后的超分辨率结果,以验证所提出的掩膜模块的有效性;选取的模型为ESRGAN,PES
。 | (9) |
其中,M
ESRGAN最开始的10个训练周期的学习速率为,并仅通过均方误差损失项训练生成网络;随后的个训练周期为基于GAN的训练,并保持的学习速率,训练个训练周期;在个训练周期之后,每隔10个训练周期,减少一半的学习速率,此过程进行个训练周期。训练过程中生成网络输入的低分辨率图像的大小为像素单位,倍上采样。损失函数为
。 | (10) |
PESR按照的学习速率训练20个周期,随后学习速率减至。训练周期共计个。网络输入的LR图像尺寸为像素单位,倍上采样,所采用的损失函数为
。 | (11) |
EDSR对于超过倍的上采样,均需要倍上采样的训练网络。因此,此处训练基于EDSR原始的倍上采样模型,并进行倍上采样模型的训练。训练周期共计200个。学习速率设置为。网络输入的低分辨率图像尺寸为像素单位,所采用的损失函数为
。 | (12) |
上述网络,使用DIV2K所提供的训练数据集进行训练,共计张高分辨率图像。网络均采用ADAM优化器,参数为,并且均为倍的上采样。
在ESRGAN,PESR,和EDSR的基础上应用掩膜模块(掩膜模块的应用方法见
模型 | DIV2K | Urban100 | BSD100 | PIRM |
---|---|---|---|---|
ESRGAN | 3.02 | 3.37 | 2.19 | 2.1 |
ESRGAN+Mask | 3.02 | 3.34 | 2.19 | 2.07 |
PESR | 3.66 | 3.81 | 3.02 | 2.59 |
PESR+Mask | 3.24 | 3.58 | 2.38 | 2.23 |
EDSR | 3.35 | 3.54 | 2.52 | 2.33 |
EDSR+Mask | 3.24 | 3.46 | 2.49 | 2.33 |

图 4 应用掩膜模块前后各超分辨率网络的超分辨率图像结果对比
Fig. 4 Comparisons of super resolution models’ image results before/after applying mask module
生成对抗网络的训练结果和初始参数的设定相关,且不容易收敛。通过实验观察掩膜模块参数对整体网络效果的影响,以ESRGAN作为基础网络应用掩膜模块,并测试应用不同掩膜模块参数下的超分辨率结果差异。掩膜模块参数由

图 5 ESRGAN在应用不同掩膜模块参数下的超分辨率图像观感质量对比
Fig. 5 Comparisons of super resolution image perceptual index between different mask module parameters on ESRGAN.
研究提出了掩膜模块用以辅助基于GAN的单张图像超分辨率模型训练,可以实现更好的超分辨率图像观感质量。掩膜由超分辨率结果和原始高分辨率图像计算得到,提供超分辨率图像区域相关的观感质量信息。对抗网络,则根据掩膜对超分辨率图像各区域独立地调整GAN损失权重。实验选取了3个基于GAN的超分辨率模型,通过比较掩膜模块应用前后的超分辨率结果对方法有效性验证。实验结果表明,掩膜模块可以较好地提升基于GAN的超分辨率模型的超分辨率结果观感质量。掩膜模块在辅助对抗网络训练过程当中仅依赖生成网络的超分辨率结果和原始高分辨率图像,因此可添加至现有的很多基于GAN的超分辨率模型当中,以进一步提升相应网络的超分辨率图像结果观感质量。目前,对超分辨率图像区域相关的观感质量信息由相应公式估算得到,如何通过深度学习更有效地计算相关信息,将是下一步研究的方向。
参考文献
Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 38(2): 295-307. [百度学术]
Kim J, Lee J K, Lee K M. Accurate image super-resolution using very deep convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016, Las Vegas, NV, USA. IEEE, 2016: 1646-1654. [百度学术]
Lim B, Son S, Kim H, et al. Enhanced deep residual networks for single image super-resolution[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). July 21-26, 2017. Honolulu, HI, USA:IEEE, 2017: 1132-1140. [百度学术]
Zhang Y L, Tian Y P, Kong Y, et al. Residual dense network for image super-resolution[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. June 18-23, 2018. Salt Lake City, UT, USA:IEEE, 2018: 2472-2481. [百度学术]
He K M, Zhang X Y, Ren S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 27-30, 2016. Las Vegas, NV, USA:IEEE, 2016: 770-778. [百度学术]
Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative adversarial networks[J]. Communications of the ACM, 2020, 63(11): 139-144. [百度学术]
Ledig C, Theis L, Huszár F, et al. Photo-realistic single image super-resolution using a generative adversarial network[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). July 21-26, 2017. Honolulu, HI, USA:IEEE, 2017: 105-114. [百度学术]
Johnson J, Alahi A, Li F F. Perceptual losses for real-time style transfer and super-resolution[EB/OL]. 2016: arXiv: 1603.08155. https://arxiv.org/abs/1603.08155 [百度学术]
Russakovsky O, Deng J, Su H, et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision, 2015, 115(3): 211-252. [百度学术]
Wang X T, Yu K, Wu S X, et al. ESRGAN: enhanced super-resolution generative adversarial networks[C]//European Conference on Computer Vision. Cham: Springer, 2019: 63-79. [百度学术]
Jolicoeur-Martineau A. The relativistic discriminator: a key element missing from standard GAN[EB/OL]. 2018: arXiv: 1807.00734. https://arxiv.org/abs/1807.00734 [百度学术]
Zhang H, Goodfellow I, Metaxas D, et al. Self-attention generative adversarial networks[EB/OL]. 2018: arXiv: 1805.08318. https://arxiv.org/abs/1805.08318 [百度学术]
Vu T, Luu T M, Yoo C D. Perception-enhanced image super-resolution via relativistic generative adversarial networks[C]//European Conference on Computer Vision. Cham: Springer, 2019: 98-113. [百度学术]
Huang J B, Singh A, Ahuja N. Single image super-resolution from transformed self-exemplars[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). June 7-12, 2015.Boston, MA, USA:IEEE, 2015: 5197-5206. [百度学术]
Blau Y, Mechrez R, Timofte R, et al. The 2018 PIRM challenge on perceptual image super-resolution[C]//European Conference on Computer Vision. Cham: Springer, 2019: 334-355. [百度学术]
Martin D, Fowlkes C, Tal D, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]//Proceedings Eighth IEEE International Conference on Computer Vision. ICCV. July 7-14, 2001, Vancouver, BC, Canada. IEEE, 2002: 416-423. [百度学术]
Agustsson E, Timofte R. NTIRE 2017 challenge on single image super-resolution: dataset and study[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). July 21-26, 2017. Honolulu, HI, USA: IEEE, 2017: 1122-1131. [百度学术]
Ignatov A, Timofte R, Vu T V, et al. PIRM challenge on perceptual image enhancement on smartphones: report[C]// European Conference on Computer Vision. IEEE,2018. [百度学术]
Ma C, Yang C Y, Yang X K, et al. Learning a no-reference quality metric for single-image super-resolution[J]. Computer Vision and Image Understanding, 2017, 158: 1-16. [百度学术]
Mittal A, Soundararajan R, Bovik A C. Making a “completely blind” image quality analyzer[J]. IEEE Signal Processing Letters, 2013, 20(3): 209-212. [百度学术]