Controllable Descendant Face Synthesis

发布 : 2021-07-29 分类 : 深度学习 浏览 :

《Controllable Descendant Face Synthesis》文章笔记
image.png
现有的后代合成方法只关注父母之一和子女,这种 1 对 1 的合成,并且没有任何精确的控制合成人脸相似的地方。本文方法同时考虑了父母双方人脸,提出了继承模块和属性增强模块,前者准确控制人脸相似之处,后者控制年龄和性别。由于缺少大规模的父亲-母亲-孩子标注的数据集,本文还提出了有效的训练策略解决该问题。
image.png

3 方法

3.1 不使用真实后代人脸学习

由于缺少大规模的三者配对的数据集,本文提出了一种策略,在没有真实后代人脸的情况下学习。它将该任务分解为了两个子任务,一种是控制合成面部与其父母之间的面部成分的相似性,即继承模块。另一个是控制年龄和性别,即属性增强模块。为了监督继承模块的学习,我们根据继承的控制向量交换父母的面部成分以生成合成面孔。通过使用颜色相关性[2]寻找颜色相近的组件,然后一个面部图像的选定组件被另一面部图像的相应组件替换。所替换的每个块均除以自身的高斯模糊,然后乘以目标脸部的高斯模糊。注意,合成面部质量较低,面部组件周围有明显的伪影。我们使用这样低质量的合成人脸作为继承模块的输入。(造了一对父母,没被替换的人脸组件区域作为遗传区域,在继承模块内监督训练。)
在继承模块内部,面部组件将根据控制向量替换。解码器生成的中间人脸与原始人脸对比,进行监督训练。

3.2 继承模块

该模块被设计用于控制合成的人脸与父母的相似组件。该模块的输入由三个部分组成,父母人脸、控制向量和父母的年龄性别。如图 3 所示,父母人脸首先根据面部 landmarks 分解为五个面部组件,每个组件表示为一个块。人脸轮廓由填黑的 mask 控制。每个组件都被独立送入编码器,由于每个组件都有不同的外貌,每个编码器都去捕捉形状,颜色和纹理的特征。
继承面孔根据控制向量,通过交换对应位置的特征图实现。每个位置的特征图通过融合拼接,生成一张新的特征图。其次,将年龄和性别标签扩展到了特征图的尺度,也融入了特征图。

3.3 属性增强模块

属性增强模块被用于调整年龄个性别。由编码器和解码器组成,编码器提取 latent 特征,然后在 latent 的基础上拼接年龄和性别的 vector,送入解码器。训练时,使用预训练的 ResNet18 模型,对年龄和性别进行分类。

3.4 双模块学习 loss

WGAN 对抗 loss

image.png
鉴别器输出的$2\times2$的概率图,不是单一标量。(常规操作)

继承模块 pixel-wise loss

训练时,继承模块的输入是低质量的合成人脸,输出是原始人脸,二者构成配对数据,进行监督训练。
image.png

继承模块 perceptual loss

继承模块使用 VGG-19 计算感知损失,获取更多面部细节。
image.png

继承模块预训练模型监督损失

继承模块的输入也包含了年龄和性别向量,这里使用预训练过的 ResNet18 分类器,分别约束生成器。
image.png

继承模块损失汇总

各个损失加权求和:
image.png

增强模块的损失如下

image.png

关于 CAAE

CAAE 介绍

在本节中,我们评论所提出的 CAAE 与其他生成网络(包括 GAN[8]、变分自编码器[13]和对抗自编码器[19])的相似和不同之处。VAE vs. GAN: VAE 使用一个识别网络来预测潜在变量的后验分布,而 GAN 使用一个对抗训练程序来通过反向传播[19]直接塑造网络的输出分布。由于 VAE 遵循编码解码方案,我们可以直接将生成的图像与输入进行比较,这在使用 GAN 时是不可能的。VAE 的一个缺点是它在图像生成中使用均方误差而不是对抗网络,因此它趋向于生成更模糊的图像[15]。
AAE vs. GAN 和 VAE: AAE 可以看作是 GAN 和 VAE 的结合,它维持着像 GAN 那样的对抗式网络一样的自编码网络,但同时维持着 kl 散度损失。不是从随机噪声生成图像,它利用编码器部分来学习在某些先验上近似的潜在变量,从而使生成的图像的风格可控。此外,与 VAE 相比,AAE 更好得捕获数据流形。
CAAE vs. AAE: 提出的 CAAE 更类似于 AAE。与 AAE 的主要区别是,提出的 CAAE 分别在编码器和生成器上加了鉴别器。编码器上的鉴别器保证了潜在空间的平滑过渡,生成器上的鉴别器辅助生成逼真的人脸图像。因此,CAAE 会比 AAE 产生更高质量的图像,如 4.4 节所述。

4 实验

实验数据集使用 SiblingDB 和 CeleAHQ。文中基于这两个数据集生成了 76800 对男女人脸,大约 4 百万图像对,控制向量。实验结果展示:
image.png
image.png

量化结果

本文使用了三种方式量化:

  • 亲属关系验证模型的准确率(越高越说明具有亲属关系)
  • 孩子与父母的人脸识别准确率(越低说明可以区分为两个人)
  • 人为打分(真人打分)

结果如下:
image.png

本文作者 : HeoLis
原文链接 : https://ishero.net/Controllable%20Descendant%20Face%20Synthesis.html
版权声明 : 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明出处!

学习、记录、分享、获得

微信扫一扫, 向我投食

微信扫一扫, 向我投食