什么是图像超分辨率重建?图像超分辨率重建的分类有哪些?
在实时互动场景中,视频分辨率是影响用户互动体验的关键因素。分辨率更高的图像往往比低分辨率的图像包含更多的细节和信息,比如,从流畅、标清到高清、超高清等,既是分辨率的增加,也是视频画质和用户观看体验的提升。
然而在很多实时互动场景中,受到设备性能、传输成本、用户带宽等限制,传输的往往是低分辨率的视频,因此为了提升视频画质质量,进而提升用户的观看体验,需要在用户端将接收到的低分辨率视频重建成纹理丰富、细节清晰、观看体验佳的高分辨率的视频,这个过程往往会用到超分技术。
一、什么是超分?
图像超分辨率重建(super resolution,SR)是指利用特定算法将一幅低分辨率的图像(low resolution,LR)或图像序列进行处理,恢复出相应的高分辨率图像(high resolution,HR)的一种图像处理技术。通俗来讲,就是根据LR中的信息,推测出放大后多出来的像素的值,也即所谓的“重建”。
二、超分的分类和技术演变历史
1. 根据重建原理不同,SR可分为传统SR和基于深度学习的方法
(1)传统SR方法
1)基于插值的方法,即在图像中插入一些像素点,这些点的值根据其周围像素点的值加权得到。常用的插值方法包括nearest、bilinear和bicubic等。插值法简单且速度快,但放大后的图像往往会出现模糊、锯齿等现象。
2)基于重建的方法,理论基础是一些数学的概率论或集合论,通过提取低分辨率图像中的关键信息,并结合对未知的超分辨率图像的先验知识来约束超分辨率图像的生成。常见的方法包括迭代反投影法、凸集投影法和最大后验概率法等。
3)基于机器学习的方法,基于机器学习的方法其实就是基于机器学习的非深度学习的方法,主要包括邻域嵌入、稀疏编码等方法。
传统SR方法主要依赖于约束项的构造以及图像之间配准的精确度达到重建效果,且其不适用于放大倍数较大的SR。随着放大因子的增大,人为定义的先验知识和观测模型所能提供的用于SR的信息越来越少,即使增加LR图像的数量,亦难以达到重建高频信息的目的。
(2)基于深度学习的SR
基于深度学习的SR的原理是把大量的LR和其对应的HR(这些数据对被称作“训练集”)交给卷积神经网络,由它自行探索LR和其对应的HR之间的映射关系。训练好之后,当输入一张训练集之外的LR的时候,这个神经网络也能预测出其对应的HR。从这个原理中也能看出,深度学习的本质就是对训练集的特点进行归纳总结,所以,当测试集跟训练集具有相同的特征的时候,神经网络就能比较准确的预测出其对应的HR,但是,也因为这个特性,一旦测试集的特点是训练集中没有的,神经网络的预测就会变得不准。
2. 根据处理速度,超分可以分为非实时与实时处理两种类型
我们经常会看到某某视频网站将一些年代久远、低分辨率、低清晰度的老视频转换成当前主流的 720P、1080P、2k 的高分辨率视频,这种是在线视频行业比较主流的基于云端服务器处理的“非实时超分算法”,这类超分适用的场景是追求更高分辨率、更清晰的视频观看体验,对处理速度的实时性没有要求,并且算力充足,可以让年代久远的视频,焕发新的活力。但非实时超分算法计算量普遍比较大,只能适用于对实时性没有要求的场景。
在实时互动的场景中,就需要用到实时处理的超分算法,这其中主要包含云端、终端处理两种方式,在云端服务器实时处理的超分算法计算量比第一种非实时的小,在超分效果和处理速度做了权衡,保证较好的超分效果的同时,可以满足服务器上实时处理的要求。但弊端也非常明显,由于需要在 GPU (图形处理器)服务器上部署,并且一台服务器只能同时处理有限路视频,当处理大量并发的实时视频流时,则需要部署大量的 GPU 服务器,这种算法的使用成本比较高,而终端的超分算法可以很好地解决这个问题。
终端超分算法可在用户的终端进行视频播放时,对视频画面进行实时后处理,从而在提升视频观看画面主观视觉效果的同时不增加企业传输带宽成本。目前业内很多主流的终端实时超分算法更集中在 PC 端,PC 端的设备相对可以提供更强的算力,实现高性能的视频画质实时增强。但当下随着实时互动场景的爆发,很多RTE场景集中在移动端,在移动终端用户的设备性能参差不齐,这就要求移动端实时超分的复杂度必须极低,这样才能在大部分移动设备中做到实时处理。如何在超低计算量的情况下还保持较好的视频超分效果,这成为实时超分领域内的难点。
3. 最佳实践
针对移动端的实时超分难点,声网人工智能算法团队经过持续的技术钻研,正式推出了业内首个基于移动端实时处理的多倍超分算法,该算法的优势是成本低、功耗小,不需要部署 GPU 服务器,仅依靠移动端设备自身的 CPU、GPU 或 NPU 来实时超分,以较小的算法计算量实现视频分辨率的多倍超分,有效增强了视频的画质,并降低视频传输的成本。
同时,把超分算法和锐化算法融合在一起,一次推理即可完成超分和锐化两项功能。其技术原理是基于深度学习算法进行丰富的视频数据训练,从大量的低分辨图像和高分辨图像对,有监督地学习低分辨到高分辨率的映射关系,实现图像放大后,细节丰富、画面清晰的效果,其超分效果、锐化效果、自适应能力明显优于传统的超分方法。