阅读文章
- Light Field Compression with Disparity Guided Sparse Coding based on Structural Key Views
- Light Field Compressed Sensing Over A Disparity-Aware Dictionary
- A Light Field Sparse Representation Structure and Its Fast Coding Technique
Light Field Compression with Disparity Guided Sparse Coding based on Structural Key Views
基于结构关键图和视差引导的光场稀疏编码
摘要
本文首次将视差引入稀疏编码中去探索光场内在的几何关系。经过优化的5张结构关键图用于生成字典,可从稀疏的稀疏矩阵中恢复光场。通过保持编码器和j解码器的近似相同,仅将SKV图、视差图和非关键位置的残差图压缩进码流中。提出一种关键图选择方法,可最大化保持光场的空间信息。为了提高字典生成效率,将光场子孔径图划分为标准的编码区域,在光场恢复过程中,按区域进行恢复。
关键词
透视变换 压缩感知 稀疏表示 光场
创新点
将视差引入稀疏编码字典的合成中,并取得较好的重建效果。
将编码区域进行层级分割,提高编码效率。
思考
- 训练过完备字典的数据量尤其庞大,并且将半合成的光场字典视为本地字典,当真不需要传输。
- 是否可将超分辨率的部分思想引入光场压缩中,提高重建效果。
- 考虑使用其他压缩方式将视差补偿的内容加入光场压缩的建模中。
- 考虑使用更先进的方法代替各个模块的求解(KSVD替换为在线学习等)
- 对于图像的结构信息,考虑使用除伪视频外的其他方式进行编码。
- 考虑使用非监督学习的稀疏编码器在图像压缩方面的应用。
假设
- 光场字典(LFD)是基于中心子图像的透视变换训练构造的,因此对于那些由于遮挡和高光产生的不规则图样,无法通过LDF进行完全表征。当然,由于在光场重构过程中选取的子图像包含在相邻的两个子图集合块(patch)中,因此部分的不规则图像也可以被重构。
- 对于动态场景,SAS和NF方法不适用。因为这两种方法是用来估计光场的视差,当物体移动时,视差会迅速改变。可以通过缩短扫描所用的时间来减少动态场景对视差估计方面的不适用程度。然而,当扫描时间缩短时,输出图像的质量会相应下降。
- 在设计Sd(dp,v)表征光场子孔径图像间的视差大小时,假设小块上的像素(物体的一个小部分,patch)位于同一深度。基于这一思想,光场字典(LDF)是,位于不同深度(取不同dp值作为标准)的不同光场子图像v,可通过普通图像字典按照Sd的视差进行位移得到。
系统框图
关键组件如下图标黄部分,挑选结构关键图(sample structural key views)、生成光场过完备字典(light field dictionary, LFD)、计算视差(calculate and quantize disparity)。这三部分用于对光场子图像的稀疏编码,得到的稀疏表示与真实子孔径图像求残差,并用伪随机序列等方式传输残差、深度图、关键结构图即可。以下详细展开。
半合成字典训练方法
图1
图1.a),在5*5的光场子图集合块中,其他子图相对于中心子图的视差。可见同一水平位置的子图间存在水平视差,同一竖直位置的子图间仅存在竖直视差。视差大小如(1)所示,单位dp,dp表示相邻子图间的单位视差值,数值大小由焦距、物体深度(当前像素点深度到相机感光平面的距离)和两微透镜间距唯一确定,示例如(1)。当相机参数确定后,dp仅与物体深度有关。但此处本人认为MH矩阵应该与蓝色箭头对应,即竖直视差;MV矩阵应该与红色箭头对应,即水平视差。
(2)中,Sd表示当使用dp作为单位视差值时,标号为v的子图相对于中心子图的视差位移距离大小,视差由水平视差和竖直视差两部分组成。
基于假设3,生成基于视差的半合成字典的具体流程:(不区别忽略原子的向量化和图片形式)
使用KSVD方法,10个基准图像需要被拆分成大小为的图像块(patch,size 16*16),训练得到每个原子的尺寸是。 是字典中原子数量。此时生成的字典称为全局字典(size 256*1024)。
在全局字典中,需要提取并生成基于视差的字典(Disparity Guided Sparse Coding )。当给定的单位视差值dp和一个给定的原子Dc,提取一系列更小的图像块(size 8*8)。这一目的是,只研究中心原子块的情况下,得到所有子孔径图对应原子块的表示。
图2
提取更小图像块(更小的原子)的法则如上图蓝色线所示,对于任意一个原子,进行尺寸变换后得到一个原子图 ,如(b)。使用SAS法则,对原子图进行扫描,扫描函数在公式(3)中定义为S,即红线所示的法则,先按列再按行扫描,间距为当前单位视差值dp。灰色原子块的中心为黑点,当计算得到的中心点落在亚像素位置时,可使用双线性差值(实验中,不考虑存在亚像素的情况)。在给定v(v=1,2,...,25)的情况下,随着dp(0,0.5,1,1.5,2,2.5,3)的增大,由(a)(b)对比可知,此时需要加padding,保证生成25个原子块,padding 部分为以边界为对称中心的镜像填充。生成的25个原子块经过向量化和级联后,生成一个新的原子。S函数将远离中心的模式通过给定的视差dp移动到中心位置的设计保证了最终得到的过完备字典能够描述遮挡和高光等不规则图像块。
(3)
根据上述规则可生成最终的半合成字典(c)【size (8*8*25)*(7*1024)】。具体公式表示如下:
(4)
公式(4)表示,Ik是全局字典生成的一个原子图,由于假设各个光场子孔径图中,每个patch(训练全局过完备字典使用)处于同一深度,因此,25(5*5)张子孔径图中编号为v的patch,可通过v的视差信息tao得到平移方向和大小,由中心patch(Ik)和平移规则得到子孔径patch(Iv)。
(5)
经过向量化和拼接(5),得到一个给定dp值的原子向量。
(6)
对于全局过完备字典中的每一个原子Ik,均进行(4)和(5)操作,生成给定dp值下的子字典Ddp。
(7)
改变dp的值,生成最终的光场过完备字典(LFD)。
结论:光场过完备字典(LFD)中,位于中心位置的中心子图原子可通过原始子图块训练得到,其他原子图由中心子图和视差得到。
编码区域分割及挑选结构关键图
图3
对于一张4D光场图像,使用matlab工具包可将其拆分成15*15个子孔径图像,(a)显示了由于微透镜等光学元件的物理性质,使得边角上的图片光晕严重,这些子孔径图将被去掉。(b)中黄色块显示了畸变和失真较严重的位置。(b)中红框显示,将所有图像有重叠的分成四个区域,每个区域有一个红色块和两个蓝色块,这两种块(structural key views, SKV)将被重复使用,选取的原则是使得关键结构块尽可能地被所有区域使用;关键块位于每个区域边缘可以记录每个区域的最大视差,且边缘位置具有丰富的位置信息可供参考。针对每个8*8的编码区域(coding region, CR),生成光场字典LDF,对于其他区域,该字典需要修剪和级联。当光场被分解为更多的子孔径图像数据量庞大时,稀疏编码对光场压缩来说就尤为重要了,区域个数需要自适应调整。
视差图估计
视差引导的稀疏编码
(8)
(8)中,表示位于位置i上的子孔径图的向量化patch的级联。表示当前中心图为标号v的zi子孔径图时,通过视差位移得到的标号为i的非中心图。
(9)
表示当前CR(coding region )中,3个SKV(structural key views)的原子块patch构成新原子。
(10)
上式表示3个SKV在当前编码区域(8*8)中,由所有原子位置上的原子组成的线性组合,其中 是稀疏系数矩阵。
(11)
(12)
由(10)和(11)联立得到(12),某一CR中的SKV可以由光场字典中各个原子的线性组合表示。
按照视差的不同,将光场字典按列重新分块,同时将系数矩阵也按列分块,显然公式(12)的稀疏矩阵中,只有一块是非零的。
(13)
其中表示量化操作符,将视差量化为整数,相当于对整个空间在深度上进行切片和量化。当dp与根据视差估计得到的量化视差相等时,转化为在给定编码误差限的情况下,系数矩阵非零元素个数最少的优化问题。(13)可使用OMP贪婪算法求解,OMP只是用LFD(size )中的个原子进行求解,减少运算量并提升光场重建质量。将用于重叠编码区域的恢复。是所有图像块的平均。当所有的CR被编码,整个光场按照CR级联。
残差编码
图4
经过基于视差的稀疏编码,光场在空间和角度上的冗余已经基本上被消除,但是残差中还蕴含丰富的结构纹理信息,此处使用伪视频序列的方式,对残差子孔径图进行编码。将所有的子孔径图分成4个象限(与本文中的编码区域CR相对应),如图4所示,展示了一个在9*9的光场子孔径图像矩阵中,提取了一个编码区域5*5(考虑十字交叉重叠)按照层级顺序进行编码,生成为视频序列,再使用JEM编码去除角度和空间上的冗余信息。
实验
构造光场字典
参数:
子孔径图像矩阵15*15,编码区域4,每个区域子孔径图像数8*8,过完备字典(400*400)中原子块8*8,单位视差值dp21*1的向量。
方法:KSVD法
图5. 红框所示的子孔径图像为有效编码区域。
压缩5张关键结构图像
将5张图排成伪视频序列,使用HEVC或JEM压缩。模式“Low-delay P-main”。为了确定合理的QP值,遍历搜索,并画成柱状图。
图6.
对两张光场图进行对比,发现SKV尺寸、PSNR及其重构效果的关系为当SKV的PSNR为35db,QP=30,size=80K bytes时,可保证较好的光场重构PSNR。接下来的实验也使用QP=30,为了进一步科学地找到合适的QP,在今后的工作中,设计了率失真函数进行准确地求解。
图7
传输SKV、视差图和残差图时,码流大小与光场恢复的PSNR大小。横轴为码流,单位K bytes;绿色显示了所有传输数据中,残差图数据量占了非常大地比重,并给出了为不同传输条件下的重构光场的PSNR值,得到增大QP,数据量增加,但是蓝色条(SKV+视差)的比重反而减小。
评估基于视差的稀疏编码(略)
率失真分析-PSNR
重建质量分析-图像