1.引言
近年来,基于深度学习的解决方案在图像增强领域取得了成功。本文介绍了LYT-Net,即轻量级YUV Transformer 网络,作为一种新的低光图像增强方法。所提出的架构与传统的基于Retinex的模型不同,它利用YUV颜色空间对亮度(Y)和色度(U和V)的自然分离,简化了在图像中分离光和颜色信息的复杂任务。通过利用 Transformer 捕捉长距离依赖关系的优势,LYT-Net在保持降低模型复杂性的同时,确保了对图像的全面上下文理解。通过采用一种新颖的混合损失函数,LYT-Net在低光图像增强数据集上取得了最先进的结果,同时其体积比其他方法小得多。
源代码和预训练模型:https://github.com/albrateanu/LYT-Net
2. 概述
低光照图像增强(LLIE)是计算机视觉(CV)领域的一个重要且具有挑战性的任务。在低光照条件下捕获图像会显著降低其质量,导致细节和对比度的丧失。这种退化不仅会导致主观上不愉快的视觉体验,还会影响许多CV系统的性能。LLIE的目标是在提高可见度和对比度的同时,恢复暗环境中固有的各种失真。
低光照条件指的是环境场景中的光照水平低于实现最佳可见性的标准要求。然而,在实际应用中,到目前为止,还无法确定特定的理论值来明确界定低光照环境。因此,对于识别和量化构成低光照条件的标准,尚未有统一的规定。
LLIE在各种计算机视觉任务中发挥着重要作用,如特征提取或基于内容的识别。此外,它还是更复杂系统在诸如医学成像、移动遥感、视频监控系统等不同领域中一个关键步骤。
LLIE解决方案随着卷积神经网络(CNN)的发展而进步,所提出的解决方案主要分为两类。第一类是直接使用CNN将低光照图像映射到正常光照的等价图像,这种方法通常忽略了人类对颜色的感知,并且在理论解释性上有所缺乏。第二类,受到Retinex理论的启发,采用更为复杂的多阶段训练流程,使用不同的CNN执行诸如分解彩色图像、去噪反射率和调整光照等任务。尽管这种方法与理论模型更为一致,但其复杂性以及需要多个训练阶段带来了显著的挑战。
在本文中,作者提出了一种基于Transformer的新方法,其特点在于低权重设计,在实现低光照图像增强(LLIE)的最先进(SOTA)结果的同时保持了计算效率。在图1中,作者展示了使用LOL数据集评估的SOTA方法在性能与复杂度之间的比较分析。为了视觉上的清晰性,在简短的比较中,作者省略了如Restormer和MIRNet这样的模型,因为它们使用的参数明显更多,但结果却相对较差。
LYT-Net展示了鼓舞人心的结果,如图2所示。在这里,作者绘制了预测图像的直方图,以便更清楚地了解模型的效果。值得注意的是,与GT相比,直方图中的分布更为平滑,这是一个有利的结果。这种更平滑的分布表明LYT-Net有效地增强了图像,平衡了其色调范围并提高了整体视觉质量。
LYT-Net采用了YUV色彩空间,这对LLIE来说尤其有利,因为它能将亮度(Y)和色度(U和V)明确分离。通过使用这个色彩空间,作者可以专门针对能在低光条件下提高图像可见性和细节的增强,而不会对颜色信息产生不利影响。由于人眼对亮度的变化更为敏感,因此专注于Y通道可以带来更自然、感知上更吸引人的增强效果。
作者的工作主要贡献可以概括为:
LYT-Net,一个轻量级模型,采用YUV颜色空间进行针对性增强。它在去噪后的亮度层和色度层上使用多头自注意力机制,旨在在处理过程的最后阶段实现更好的融合。设计了一个混合损失函数,它在模型的高效训练中扮演了关键角色,并对模型的增强能力有显著贡献。通过定量和定性的实验,LYT-Net在LOL数据集上与现有技术水平(SOTA)方法相比,已显示出强大的性能。3.算法架构
在图3中,作者展示了LYT-Net的整体架构。如图所示,该模型主要包括一个主要的YUV分解部分,以将色度与亮度分离,之后是几层及可分离的块,如多头自注意力(MHSA)块、多阶段挤压与激活融合(MSEF)块和通道去噪(CWD)块。作者采用双路径方法,将色度和亮度视为独立实体,以帮助模型更好地理解在光照调整和损坏恢复之间的差异。
如图3所示,该模型以RGB格式处理输入图像并将其转换为YUV。每个通道都通过一系列卷积层、池化操作以及MHSA机制单独增强。亮度通道经过卷积和池化提取特征,之后通过MHSA模块进行增强。色度通道和通过CWD块处理以降低噪声同时保留细节。增强后的色度通道被重新组合并通过MSEF块处理。最终,色度与亮度被连接起来,并通过最后一组卷积层生成输出,得到高质量的增强图像。
Multi-headed Self-attention Block
在作者的简化 Transformer 架构中,作者专注于MHSA机制。输入特征首先通过无偏置的全连接层线性投影到 Query ()、Key()和Value()组件。
这个投影在数学上如公式3所示,其中、和是密集层的学习参数。投影特征随后被 Reshape 为标记,并根据公式2分成个头。自注意力机制,如公式3所定义,应用于每个头,输出被连接并加入位置编码,生成输出标记,然后这些标记被 Reshape 以形成输出特征。
Multi-stage Squeeze & Excite Fusion Block
MSEF模块增强了的空间和通道特征。最初,先进行层归一化,然后通过全局平均池化来捕捉全局空间上下文,并经过带有ReLU激活的减少的全连接层,生成一个简化的描述符,公式4。这个描述符随后通过另一个带有Tanh激活的全连接层扩展回原来的维度,公式5,得到。
在融合输出中添加了一个残差连接以生成最终的输出特征图 ,如公式 6 所示。
Channel-wise Denoiser Block
CWD模块采用带有MHSA作为瓶颈的U型网络,融合了卷积和基于注意力的机制。它包含多个层,这些层具有不同的步长和跳跃连接,有助于详细特征的捕捉和去噪。
它由一系列四个 组成。第一个 的步长为 ,用于特征提取。另外三个 层的步长为 ,有助于捕捉不同尺度的特征。注意瓶颈的融合使模型能够捕捉长距离依赖,进而通过上采样层和跳跃连接来重建和促进空间分辨率的恢复。
Loss Function
在作者的方法中,混合损失函数在有效训练LYT-Net中扮演了关键角色。混合损失如公式7中所述,其中到是用于平衡每个组成损失函数的超参数。
平滑L1损失 ,是L1损失的一种鲁棒变体,对异常值不太敏感,定义如公式8。
感知损失 (公式9)提供了高级特征的监督。 是特征的总数, 是预训练VGG网络中第 层的输出,而 是特征图的维度。
直方图损失对真实图像和预测图像的像素强度分布进行对齐。 是图像 的直方图中第 个Bin中的像素计数。 是直方图中的总Bin数。 由方程式 10 给出。
PSNR是图像质量评估的一个常用指标。的定义如公式11所示。
颜色损失确保了生成图像与目标图像之间的颜色保真度。 表示通道 在高度 和宽度 上像素值的平均值。 在公式 12 中定义。
多尺度结构相似性指数损失(Multiscale Structural Similarity Index Measure, MS-SSIM),它在多个尺度上评估结构相似性,对于保持图像的结构完整性至关重要,在方程式13中有所描述。
作者的混合损失函数的目的是考虑到异常值(通过 ),类似人类的图像感知(通过 ),统计信息(通过 和 ),噪声控制(通过 ),以及质量的忠实度(通过 )。
4、测试与实验
LYT-Net的实现采用了Tensorflow框架。ADAM优化器( 和 )作为优化器用于1000个周期的训练。它从一个初始学习率 开始,并通过余弦退火方案逐渐降低到 。这种策略有助于提升优化收敛性,并防止由局部最小值引起的学习阻碍。
LYT-Net在LOL数据集的不同版本上进行训练和评估:v1、v2-real和v2-synthetic。与每个版本对应的训练/测试划分是:LOL-v1为485:15,LOL-v2-real为689:100,LOL-v2-synthetic为900:100。
训练对通过一个随机抖动过程,这个过程会经历一个随机裁剪到以及其他增强处理,如随机翻转/旋转,以避免过拟合。随后,这些配对以批量大小为的方式输入到训练过程中。最后,评估指标包括PSNR和SSIM。
Quantitative results
所提出的方法与现有的SOTA LLIE技术进行了对比,结果如表1所示。这项比较主要集中在两个关键方面:在指定数据集(LOL-v1, LOL-v2-real, 和 LOL-v2-synthetic)上的定量性能以及复杂度。
正如表1所示,LYT-Net在LOL数据集的所有变体中一致取得了前三名的分数。在复杂性方面,LYT-Net显著高效,仅使用 FLOPS(每秒浮点运算)以及非常少的参数数量,。这种效率与其他SOTA方法相比,显著降低了计算要求。这种性能与效率的平衡使作者有信心宣称,作者的方法能显著地带来良好的结果。
在复杂性方面,LYT-Net排名第三。然而,与3DLUT或RUAS等方法相比,这些方法的复杂性较低,定量结果突显出LYT-Net能够提供更优的结果。
与SNR-Net、Retinexformer或MIRNet等模型相比,LYT-Net以其具有竞争力的性能和显著降低的计算成本脱颖而出。
Qualitative Results
所提出的方法在图4的LOL数据集上与现有SOTA LLIE技术进行了定性评估,并在图5的LIME上进行了评估。值得注意的是,先前的方法显示出一些局限性。例如,如图4所示,KiND和Restormer存在颜色失真问题。
此外,几种方法倾向于在增强亮度的过程中产生过度或不足曝光的区域,从而影响图像的对比度。这个问题在使用如图4中的RUAS、MIRNet和SNR-Net等算法时尤为明显。同样的问题在图5中的其他算法如SRIE,DeHz和NPE中也可以观察到,这些算法在尝试照亮图像时会导致对比度的损失。这些观察凸显了在低光照图像增强(LLIE)中平衡曝光和色彩保真度的挑战,而LYT-Net旨在这些领域提供改进。
5 、总结
这些工作中展示的数据突显了LYT-Net在最少计算资源的情况下提供高质量图像增强的能力。其性能与更重、更复杂的模型相当,甚至在某些情况下超过了这些模型,使得它在计算效率至关重要的应用中成为一个有吸引力的解决方案。
总之,LYT-Net以其在性能与效率之间的高度有效平衡而脱颖而出,在保持超轻量级特性的同时,在标准基准测试中取得了顶级结果。
展望未来,作者计划在更大的数据集上进一步评估LYT-Net,并融合用户反馈以提升作者的基准测试。鉴于LYT-Net的低复杂性,作者也预见到其与传感器系统的潜在整合,扩大其在实际应用场景中的适用性。