王岚婷-个人简介

# Learning Continuous Image Representation with Local Implicit Image Function > Yinbo Chen, Sifei Liu, Xiaolong Wang > > CVPR 2021 ## Abstract 如何表示一张图像？当视觉世界以连续的方式呈现时，机器只能以二维像素数组以离散的方式存储和观看图像。在本文中，我们试图学习图像的连续表示。受隐式神经表示三维重建的最新进展的启发，我们提出了局部隐式图像函数（LIIF），该函数以图像坐标和坐标周围的二维深度特征作为输入，预测给定坐标处的RGB值作为输出。由于坐标是连续的，LIIF可以以任意分辨率表示。为了生成图像的连续表示，我们通过具有超分辨率的自监督任务来训练具有LIIF表示的编码器。学习到的连续表示可以用任意分辨率表示，甚至可以外推到30倍分辨率即使没有提供训练任务。我们进一步表明，LIIF表示在二维离散表示和连续表示之间建立了一座桥梁，它自然地支持具有大小变化的图像ground truth的学习任务，并且显著优于调整ground truth的方法。 ![image-20230312202643758](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202643758.png) ## Problems ## Contributions 1. 提出了一种新的连续表示自然和复杂图像的方法 2. LIIF表示法允许外推甚至x30更高的分辨率，虽然这没有在训练期间体现 3. 证明了LIIF表示对于大小不同的图像ground truth学习任务是有效的 ## Method ### Local Implicit Image Function ![image-20230312160417450](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312160417450.png) 1. 解码函数，基于MLP，可以看作是将坐标映射到RGB值的函数 s代表了预测的RGB值 ![image-20230312151820486](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312151820486.png) 2. 连续图像I上的点的RGB值可定义为，连续图像和特征图的尺寸是不需要对应的，两者存在映射关系，支持任意分辨率 z是特征图，I(x_q)代表连续图像上的点，作者希望通过f这个函数来表示出这种映射关系 ![image-20230312153142755](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312153142755.png) 3. 映射的过程使用解码函数f来实现，f基于MLP实现，训练的目的就在于f能将映射过程学习出来 ### Feature unfolding 应用特征展开来丰富$M^{(i)}$（二维特征图）中每个潜在编码的信息 ### Local ensemble 公式2中存在不连续预测的问题，当$x_q$在二维域中移动时，对$z^*$的选择会出现突然切换的问题，这样学习到的f是不完美的为了解决这个问题，对公式2进行扩展 ![image-20230312163344893](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312163344893.png) 考虑了周围潜在编码的影响，每个点的预测会有局部重叠片段，使得预测更加平滑，更充分考虑领域信息 $S_{t}$代表对角线长度，$S$是对角线之和但有个问题是：$S_{t} / S$，距离查询点越远，$S_{t}$越大，得到的值越大，应该是越接近，比重越大才对 ### Cell decoding ![image-20230312200946379](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312200946379.png) 问题：可用于任意像素的映射，查询像素的预测RGB值与图像的大小尺寸无关，但它的像素区域中的信息除了中心值和领域值外都被丢弃了，这并不是最优的方案为了解决这个问题，添加了cell编码 ![image-20230312200423234](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312200423234.png) 含义为：渲染一个以x为中心的像素，其周围形状为c，那么该点的RGB值为多少 ### 超分辨率自监督重建任务 ![image-20230312202057220](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202057220.png) ## Experiments ![image-20230312202418547](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202418547.png) ![image-20230312202503535](https://hexo-img.obs.cn-east-3.myhuaweicloud.com/llf/image-20230312202503535.png) ## 总结 1. 论文提出了一种采用隐函数来生成图像的连续表示，改进了离散采样（Bicubic等），且可以生成任意分辨率的新图像 2. 可以考虑把隐函数扩展到3D形状重建、补全上，相比Occupancy Network这类解释起来更深入更可靠