返回主页
Marked in the browser
# Learning Continuous Image Representation with Local Implicit Image Function
> Yinbo Chen, Sifei Liu, Xiaolong Wang
>
> CVPR 2021
## Abstract
如何表示一张图像?当视觉世界以连续的方式呈现时,机器只能以二维像素数组以离散的方式存储和观看图像。在本文中,我们试图学习图像的连续表示。受隐式神经表示三维重建的最新进展的启发,我们提出了局部隐式图像函数(LIIF),该函数以图像坐标和坐标周围的二维深度特征作为输入,预测给定坐标处的RGB值作为输出。由于坐标是连续的,LIIF可以以任意分辨率表示。为了生成图像的连续表示,我们通过具有超分辨率的自监督任务来训练具有LIIF表示的编码器。学习到的连续表示可以用任意分辨率表示,甚至可以外推到30倍分辨率即使没有提供训练任务。我们进一步表明,LIIF表示在二维离散表示和连续表示之间建立了一座桥梁,它自然地支持具有大小变化的图像ground truth的学习任务,并且显著优于调整ground truth的方法。

## Problems
## Contributions
1. 提出了一种新的连续表示自然和复杂图像的方法
2. LIIF表示法允许外推甚至x30更高的分辨率,虽然这没有在训练期间体现
3. 证明了LIIF表示对于大小不同的图像ground truth学习任务是有效的
## Method
### Local Implicit Image Function

1. 解码函数,基于MLP,可以看作是将坐标映射到RGB值的函数
s代表了预测的RGB值

2. 连续图像I上的点的RGB值可定义为,连续图像和特征图的尺寸是不需要对应的,两者存在映射关系,支持任意分辨率
z是特征图,I(x_q)代表连续图像上的点,作者希望通过f这个函数来表示出这种映射关系

3. 映射的过程使用解码函数f来实现,f基于MLP实现,训练的目的就在于f能将映射过程学习出来
### Feature unfolding
应用特征展开来丰富$M^{(i)}$(二维特征图)中每个潜在编码的信息
### Local ensemble
公式2中存在不连续预测的问题,当$x_q$在二维域中移动时,对$z^*$的选择会出现突然切换的问题,这样学习到的f是不完美的
为了解决这个问题,对公式2进行扩展

考虑了周围潜在编码的影响,每个点的预测会有局部重叠片段,使得预测更加平滑,更充分考虑领域信息
$S_{t}$代表对角线长度,$S$是对角线之和
但有个问题是:$S_{t} / S$,距离查询点越远,$S_{t}$越大,得到的值越大,应该是越接近,比重越大才对
### Cell decoding

问题:可用于任意像素的映射,查询像素的预测RGB值与图像的大小尺寸无关,但它的像素区域中的信息除了中心值和领域值外都被丢弃了,这并不是最优的方案
为了解决这个问题,添加了cell编码

含义为:渲染一个以x为中心的像素,其周围形状为c,那么该点的RGB值为多少
### 超分辨率自监督重建任务

## Experiments


## 总结
1. 论文提出了一种采用隐函数来生成图像的连续表示,改进了离散采样(Bicubic等),且可以生成任意分辨率的新图像
2. 可以考虑把隐函数扩展到3D形状重建、补全上,相比Occupancy Network这类解释起来更深入更可靠