返回主页

Marked in the browser
# Learning Continuous Image Representation with Local Implicit Image Function > Yinbo Chen, Sifei Liu, Xiaolong Wang > > CVPR 2021 ## Abstract 如何表示一张图像?当视觉世界以连续的方式呈现时,机器只能以二维像素数组以离散的方式存储和观看图像。在本文中,我们试图学习图像的连续表示。受隐式神经表示三维重建的最新进展的启发,我们提出了局部隐式图像函数(LIIF),该函数以图像坐标和坐标周围的二维深度特征作为输入,预测给定坐标处的RGB值作为输出。由于坐标是连续的,LIIF可以以任意分辨率表示。为了生成图像的连续表示,我们通过具有超分辨率的自监督任务来训练具有LIIF表示的编码器。学习到的连续表示可以用任意分辨率表示,甚至可以外推到30倍分辨率即使没有提供训练任务。我们进一步表明,LIIF表示在二维离散表示和连续表示之间建立了一座桥梁,它自然地支持具有大小变化的图像ground truth的学习任务,并且显著优于调整ground truth的方法。 ![image-20230312202643758](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202643758.png) ## Problems ## Contributions 1. 提出了一种新的连续表示自然和复杂图像的方法 2. LIIF表示法允许外推甚至x30更高的分辨率,虽然这没有在训练期间体现 3. 证明了LIIF表示对于大小不同的图像ground truth学习任务是有效的 ## Method ### Local Implicit Image Function ![image-20230312160417450](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312160417450.png) 1. 解码函数,基于MLP,可以看作是将坐标映射到RGB值的函数 s代表了预测的RGB值 ![image-20230312151820486](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312151820486.png) 2. 连续图像I上的点的RGB值可定义为,连续图像和特征图的尺寸是不需要对应的,两者存在映射关系,支持任意分辨率 z是特征图,I(x_q)代表连续图像上的点,作者希望通过f这个函数来表示出这种映射关系 ![image-20230312153142755](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312153142755.png) 3. 映射的过程使用解码函数f来实现,f基于MLP实现,训练的目的就在于f能将映射过程学习出来 ### Feature unfolding 应用特征展开来丰富$M^{(i)}$(二维特征图)中每个潜在编码的信息 ### Local ensemble 公式2中存在不连续预测的问题,当$x_q$在二维域中移动时,对$z^*$的选择会出现突然切换的问题,这样学习到的f是不完美的 为了解决这个问题,对公式2进行扩展 ![image-20230312163344893](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312163344893.png) 考虑了周围潜在编码的影响,每个点的预测会有局部重叠片段,使得预测更加平滑,更充分考虑领域信息 $S_{t}$代表对角线长度,$S$是对角线之和 但有个问题是:$S_{t} / S$,距离查询点越远,$S_{t}$越大,得到的值越大,应该是越接近,比重越大才对 ### Cell decoding ![image-20230312200946379](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312200946379.png) 问题:可用于任意像素的映射,查询像素的预测RGB值与图像的大小尺寸无关,但它的像素区域中的信息除了中心值和领域值外都被丢弃了,这并不是最优的方案 为了解决这个问题,添加了cell编码 ![image-20230312200423234](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312200423234.png) 含义为:渲染一个以x为中心的像素,其周围形状为c,那么该点的RGB值为多少 ### 超分辨率自监督重建任务 ![image-20230312202057220](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202057220.png) ## Experiments ![image-20230312202418547](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202418547.png) ![image-20230312202503535](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202503535.png) ## 总结 1. 论文提出了一种采用隐函数来生成图像的连续表示,改进了离散采样(Bicubic等),且可以生成任意分辨率的新图像 2. 可以考虑把隐函数扩展到3D形状重建、补全上,相比Occupancy Network这类解释起来更深入更可靠