Exploiting Spatial Dimensions of Latent in GAN for Real time Image Editing
2021 CVPR《Exploiting Spatial Dimensions of Latent in GAN for Real-time Image Editing》 论文笔记。github
作者认为现有的编码器将图像压缩到纠缠的一维向量,这很难进行保留高频细节的图像重建。提出了带有空间维度的 latent,StyleMapGAN。它将一维 latent 改为带有空间维度的 stylemap。Mapping Net 将 stylemap 映射到高纬度。stylemap 是包含色彩、纹理和形状信息的,它利于图像的重建。
方法
1. Stylemap-based generator
与 stylegan 相同,在高斯分布采样 z,经过 MLP 映射。但最后将原本一维的 latent,reshape 到了二维。对于生成器的不同分辨率,通过可学习的映射网络,将 stylemap 进行上采样。这里用 element-wise 级别的仿射变换替换掉了 AdaIN。由于 stylemap 已经引入了空间多样性,所以解码器去除了 nosie 输入。
stylegan 原来的 AdaIN 中的放射变换的参数 $\gamma$ 和 $\beta$ 的维度只到通道维度。而本文方法对空间进行了扩展, $\gamma_{i}, \beta_{i} \in \mathbb{R}^{C_{i} \times H_{i} \times W_{i}}$ 如此实现了对空间维度的控制。
2. Training procedure and losses
图二上半部分展示了训练过程,表 1 是所使用的 Loss,多个 loss 联合训练。这里需要注意的是,编码器在 GAN 训练阶段一同进行了训练。E 只有一处进行了梯度隔离,图 2 中已标出。
3. Local editing
图 2 的下半部分展示了如何进行编辑,需要注意的是文中为了描述简洁,以编辑 stylemap 进行了举例,实际操作是在$w+$空间进行的。
文中是以局部编辑举例的,直接操作 $w+$ 空间的 map。替换后,实验结果展示了对应属性确实进行了改变,说明 $w+$ 空间的 map 具有色彩、纹理和形状等信息。
实验
1. Effects of stylemap resolution
stylemap 分辨率越高,GAN Inversion 得到的图像细节保留越丰富。
作者猜测随着 stylemap 分辨率的增加,encoder 得到的 latent 被投影到域外。最后折中选择, $8\times 8$ 的 stylemap。
2. Local editing
效果展示
量化结果
3. Unaligned transplantation
非对称位置移植展示
本文作者 : HeoLis
原文链接 : https://ishero.net/Exploiting%20Spatial%20Dimensions%20of%20Latent%20in%20GAN%20for%20Real%20time%20Image%20Editing.html
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!
学习、记录、分享、获得