在单图像超分辨率(SISR)领域,扩散模型通过一步步的去噪生成,扩散模型打破了传统 GAN 容易产生伪影的瓶颈,为我们带来了极其逼真的生成效果 。
然而,现有的扩散模型在处理超分辨率任务时,常常面临一个痛点:生成的图像整体结构很好,但在细微的纹理和高频细节(比如远处的窗户轮廓、汽车的散热格栅)上总是显得有些模糊或平滑过度 。
为了解决这一问题,我们提出了一种全新的架构——HDW-SR 。它巧妙地将传统信号处理中的“小波变换”与前沿的“扩散模型”结合,为图像的高频细节提供了较强的先验。
1. 抛弃 CNN 降采样,拥抱小波变换
在特征提取阶段,传统的 U-Net 架构极度依赖卷积(CNN)和池化来进行降采样 。但池化操作天生就会抹杀图像的边缘和纹理信息,导致高频特征丢失 。
HDW-SR 创造性地用**离散小波变换(DWT)**取代了 CNN 降采样 。 小波变换是一个非常优雅的数学工具,它可以将图像无损地分解为低频(概貌)和高频(细节)分量 :
低频分量 ():保留图像的整体结构 。
高频分量 ():精准捕捉水平、垂直和对角线方向的边缘细节 。
由于小波变换是可逆的,这种多尺度的频率分离不仅不会丢失信息,反而为后续的扩散过程提供了极其精确的“高频路标” 。
2. 动态阈值与高频交叉引导
网络被分为了两个子网络:
HE-Net(高频提取网络):从小波分解后的 PreSR 图像中提取纯净的高频指导信息 。
HA-Net(高频增强网络):这是真正的扩散生成网络 。
在去噪过程中,HA-Net 会将带有噪声的低频图像特征,与 HE-Net 提取的清晰高频特征进行交叉注意力(Cross-Attention)计算 。为了不让计算量爆炸并过滤掉无用噪声,我们设计了一个动态阈值块(DTB) 。DTB 的思想类似于图像分割中的 Otsu 算法,它通过计算类内和类间的方差,动态自适应地寻找一个最佳阈值 ,精确筛选出最关键的高频信息 。
总体损失函数的平衡:
为了保证模型既能学好提取高频,又能完美去噪,模型的整体损失函数 被定义为:
实验表明,当 时,模型在保真度和感知质量之间达到了完美的平衡 。
惊艳的实验结果
在 DIV2K(合成数据集)以及 RealSR(真实世界数据集)上的测试表明,HDW-SR 无论是在 PSNR(峰值信噪比)这种客观指标,还是在 NIQE、MUSIQ 等无参考感知指标上,都拿下了较好的成绩 。
从视觉效果上看,相比于 StableSR 或 OSEDiff 等主流方法,HDW-SR 生成的玻璃反光、汽车防尘网格、以及建筑物的窗户轮廓都显得更加清晰自然,彻底摆脱了传统扩散模型常有的过度平滑和伪影问题 。
总结
HDW-SR 为单图像超分辨率任务提供了新的思路:在频率域里找细节,在残差空间里做生成。