深圳先进技术研究院,深圳先进技术研究院招生
本文介绍我们近期的工作Blueprint Separable Residual Network(BSRN),该方法已被CVPRW 2022接受,并在NTIRE 2022 Efficient Super-Resolution Challenge:Sub-Track 1 – Model Complexity Track中取得第一名。
图1 BSRN与SOTA 方法的对比图。横轴表示参数量,纵轴为性能,圆半径代表计算量。注:其中BSRN-S为参赛模型。
BSRN与SOTA方法对比如图1所示,横轴表示参数量,纵轴为性能,圆半径代表计算量。BSRN-S占据了左上角,参数量和计算量非常小,超分重建效果与其他方法相当。
论文链接:https://arxiv.org/abs/2205.05996
Github链接:https://github.com/xiaom233/BSRN
1
赛道简介
NTIRE全称New Trends in Image Restoration and Enhancement workshop,是The IEEE / CVF Computer Vision and Pattern Recognition Conference (CVPR)举办的赛,是计算机图像修复领域最具影响力的赛事之一。
图像恢复、增强和处理是关键的计算机视觉任务,旨在恢复退化的图像内容、填充缺失的信息,或为实现预期目标(关于感知质量、内容、或处理此类图像的应用程序的性能)。
近年来,视觉和图形社区对这些基本研究主题的兴趣日益浓厚。不仅相关论文流量不断增长,而且取得了实质性进展。由于图像恢复、增强和处理是重要的前端,在监控、汽车工业、电子、遥感或医学图像分析等领域具有重要推动作用。移动和可穿戴设备的出现和普及也促进了图像恢复、增强和处理领域的快速发展。NTIRE 2022旨在概述这些领域的新趋势和进展。此外,它将为学术和工业参与者提供一个互动和探索合作的机会
NTIRE 2022提出了NTIRE Efficient SR Challenge,其任务为对输入图像进行4倍超分辨率。具体要求是设计一个网络,减少一个或几个方面,如运行时间、参数量、FLOPs、激活和深度,同时至少在DIV2K验证数据集上保持29.00dB的 PSNR。在Sub-Track 1: Model Complexity Track考虑了参数的数量和 FLOP,并将两个指标的排名相加,确定该赛道的最终排名。
2
方案
图2 BSRN的结构示意图
如图2所示,BSRN由四部分组成:浅层特征提取、深层特征提取、多层特征融合与重建。由于GT图像通常比LR图像包含更多的纹理信息和特征信息,而不同阶段卷积层的特征图则可以提取到不同抽象层次的纹理和特征信息。
本章使用的BSRN可以提取不同层次阶段的网络特征信息,并通过融合操作精细利用这些特征信息以恢复更高质量的SR图像。BSRN在RFDN网络结构的基础上,对局部模块进行了改进,在压缩模型的参数量和计算量的同时,增强了模型的重建能力。
图3 ESDB的结构示意图
BSRN 通过使用蓝图分离卷积 (Blueprint Separable Convolution, BSConv) 来构建基本构建块来减少冗余。BSConv是原始深度可分离卷积 (Depth-wise Separable Convolution, DSConv) 的改进变体,它更好地利用内核内相关性进行有效分离。我们的工作表明BSConv有利于高效的SR。其次,适当的注意力模块已被证明可以提高高效SR网络的性能。
如图3所示,我们还引入了两个有效的注意力模块,增强空间注意力(ESA)和对比度感知通道注意力(CCA),以增强模型能力。所提出的BSRN在现有的面向效率的SR网络中实现了最先进的性能。我们采用我们方法BSRN-S的变体参加了NTIRE 2022 Efficient SR Challenge,并在模型复杂度赛道获得冠军。
我们对AIM2020的冠军方法RFDN做了三个主要改进,构建了ESDB。如图3所示,一是引入了BSConv代替了SRB和ESA 模块中的标准卷积,消融实验证明,在网络结构不变的情况下在轻微损失性能,大幅度降低了网络的参数量和计算量。二是使用GELU激活函数代替了ReLU激活函数。三是综合利用了两种不同的注意力模块,从空间和通道两个方面使用注意力机制,在少量增加参数量的情况下,提升了网络性能。
3
消融实验
本节首先介绍不同卷积分解方法的效果,然后展示了两个注意力模块的有效性,并比较了不同激活函数的效果,最后进一步展示了所提出结构的有效性。
表1 不同卷积分解方法的定量比较
如表1所示,本节进行了对比实验以展示基于 RFDN 的不同卷积分解方式的效果,其中DSConv表示深度可分离卷积,BSConvS和BSConvU表示BSConv两个变体。可以观察到虽然直接使用卷积分解的方法使得模型的性能产生了一定程度的负面影响,但是可以观察到模型的参数量和计算量(本章使用乘加作为计算量的量化指标)大幅度下降。而在表中的卷积分解方法中,BSConvU表现最佳,故最终在模型中使用了BSConvU。
表2 ESA和CCA模块的消融实验
由于 ESA 和 CCA 的有效性已被证明,本章将这两个模块引入BSRN中以增强模型的表征能力,图3(c)显示了 ESA 模块的具体架构。
它从一个的卷积层开始,以减少输入特征的通道维度。然后该块使用跨步卷积(Strided Convolution)和跨步最大池化层(Strided Max Pooling)来减小特征空间大小。在一组卷积提取特征之后,执行基于插值的上采样以恢复空间大小。与原始版本的ESA不同,本章也对其中的卷积进行了改进,将标准卷积层改为BSConv,以提高网络效率。然后结合残差连接,特征通过1×1卷积层进一步处理以恢复通道大小。最后,注意力矩阵通过 Sigmoid 函数生成并乘以原始输入特征。
在如图3(b)所示的 ESA 块之后添加的 CCA 块,它是为 SR 任务提出的通道注意模块的改进版本。与使用每个通道特征的平均值计算的传统通道注意不同,CCA 利用对比度信息 包括平均值和标准差的总和来计算通道注意力权重。两个模块的效果如表3-3所示,ESA和CCA分别从两个维度展现了综合使用注意力机制的有效性。
表3 激活函数的对比实验
之前的SR网络大多采用 ReLU或 LeakyReLU作为激活函数。然而,GELU逐渐成为近期作品中的主流选择。MobileNet V3研究了高效模型中不同激活函数的影响,并提出了一种新的激活函数 h-swish。因此,本节还研究了各种激活函数,以探索本章方法的最佳选择。
如表3所示,实验结果表明不同的激活函数可以明显影响模型的性能。在这些激活函数中,GELU获得了显着的性能提升,尤其是在 Urban100 数据集上。因此,选择了GELU作为本章模型中的激活函数。
表4 激活函数的对比实验
如表4所示,我们设计了两种BSRN变体来证明所提出架构的有效性。本节将BSRN的宽度设置为与BSRN-1的原始RFDN相同,加深网络深度以获得相似的超分性能。然后将模型容量扩大到与RFDN近似,得到BSRN-2。最后在相同的训练设置下训练比较模型以进行公平比较。
如表4所示,可以观察到BSRN-1在参数量和计算量仅仅为RFDN一般的情况下优于RFDN的超分效果。此外,参数量和计算量接近RFDN的情况下,BSRN-2获得了显着的性能提升,尤其是在Manga109数据集上。
以上实验结果充分表明了所提出架构的优越性。
4
实验结果
表5 子赛道:模型复杂度的结果对比
赛道其他方法对比:从表5可以看出,我们的方法相比并列第一的方法,仅在计算量上略有劣势,在性能,内存占用上有较大优势,在参数量和运行时间上有较小优势,但是运行时间相比其他方法太长,这是我们的代码优化问题导致的,且受到硬件平台和系统环境的影响。
表6 优化后的模型对比
Sub-Track 1: Model Complexity Track冠军:经过优化后的模型在RTX 3090,CUDA 11.1,Pytorch 1.9.1的系统环境下进行测试得到如表3的结果,可以观察到优化后的模型运行时间可以缩短为原先的73.4%,运行时间接近RFDN。
表7 BSNR与SOTA 方法参数量、计算量和性能对比
定量对比:如表7所示,BSRN与其他 SOTA 方法相比,参数量仅略大于PAN的情况下,模型性能大幅度提高,在所有数据集上超越现有的轻量级超分方法。BSRN-S为参赛网络,在性能和现有方法接近的情况下,与RFDN相比,仅仅使用28.4%的参数量和34.7%的计算量就达到了近似的性能。
图4 视觉效果对比图
视觉效果对比:如图4所示,BSRN效果相比于其他方法在局部效果中有着出色的视觉表现,图中的PSNR和SSIM均在图中的局部切片计算。在其他方法对图中的线条纹理恢复不佳的地方,BSRN获得了相当优秀的恢复效果,线条清晰准确,伪影和扭曲最少。
5
小结
该工作通过运用BSConv和注意力模块,对AIM2020冠军方法RFDN进行改进,设计了浅层特征提取模块BSRB和深层模块ESDB,构建了轻量级超分网络BSRN。该网络与RFDN相比,仅仅使用其28.4%的参数量和34.7%的计算量就达到了近似的性能,取得了NTIRE2022 Efficient Super-Resolution Challenge Subtrack1: Model Complexity冠军。
深圳先进技术研究院(深圳先进技术研究院招生)