《Controllable Descendant Face Synthesis》文章笔记

现有的后代合成方法只关注父母之一和子女，这种 1 对 1 的合成，并且没有任何精确的控制合成人脸相似的地方。本文方法同时考虑了父母双方人脸，提出了继承模块和属性增强模块，前者准确控制人脸相似之处，后者控制年龄和性别。由于缺少大规模的父亲-母亲-孩子标注的数据集，本文还提出了有效的训练策略解决该问题。

3 方法

3.1 不使用真实后代人脸学习

由于缺少大规模的三者配对的数据集，本文提出了一种策略，在没有真实后代人脸的情况下学习。它将该任务分解为了两个子任务，一种是控制合成面部与其父母之间的面部成分的相似性，即继承模块。另一个是控制年龄和性别，即属性增强模块。为了监督继承模块的学习，我们根据继承的控制向量交换父母的面部成分以生成合成面孔。通过使用颜色相关性[2]寻找颜色相近的组件，然后一个面部图像的选定组件被另一面部图像的相应组件替换。所替换的每个块均除以自身的高斯模糊，然后乘以目标脸部的高斯模糊。注意，合成面部质量较低，面部组件周围有明显的伪影。我们使用这样低质量的合成人脸作为继承模块的输入。（造了一对父母，没被替换的人脸组件区域作为遗传区域，在继承模块内监督训练。）
在继承模块内部，面部组件将根据控制向量替换。解码器生成的中间人脸与原始人脸对比，进行监督训练。

3.2 继承模块

该模块被设计用于控制合成的人脸与父母的相似组件。该模块的输入由三个部分组成，父母人脸、控制向量和父母的年龄性别。如图 3 所示，父母人脸首先根据面部 landmarks 分解为五个面部组件，每个组件表示为一个块。人脸轮廓由填黑的 mask 控制。每个组件都被独立送入编码器，由于每个组件都有不同的外貌，每个编码器都去捕捉形状，颜色和纹理的特征。
继承面孔根据控制向量，通过交换对应位置的特征图实现。每个位置的特征图通过融合拼接，生成一张新的特征图。其次，将年龄和性别标签扩展到了特征图的尺度，也融入了特征图。

3.3 属性增强模块

属性增强模块被用于调整年龄个性别。由编码器和解码器组成，编码器提取 latent 特征，然后在 latent 的基础上拼接年龄和性别的 vector，送入解码器。训练时，使用预训练的 ResNet18 模型，对年龄和性别进行分类。

3.4 双模块学习 loss

WGAN 对抗 loss

鉴别器输出的$2\times2$的概率图，不是单一标量。（常规操作）

继承模块 pixel-wise loss

训练时，继承模块的输入是低质量的合成人脸，输出是原始人脸，二者构成配对数据，进行监督训练。

继承模块 perceptual loss

继承模块使用 VGG-19 计算感知损失，获取更多面部细节。

继承模块预训练模型监督损失

继承模块的输入也包含了年龄和性别向量，这里使用预训练过的 ResNet18 分类器，分别约束生成器。

继承模块损失汇总

各个损失加权求和：

增强模块的损失如下

关于 CAAE

CAAE 介绍

在本节中，我们评论所提出的 CAAE 与其他生成网络(包括 GAN[8]、变分自编码器[13]和对抗自编码器[19])的相似和不同之处。VAE vs. GAN: VAE 使用一个识别网络来预测潜在变量的后验分布，而 GAN 使用一个对抗训练程序来通过反向传播[19]直接塑造网络的输出分布。由于 VAE 遵循编码解码方案，我们可以直接将生成的图像与输入进行比较，这在使用 GAN 时是不可能的。VAE 的一个缺点是它在图像生成中使用均方误差而不是对抗网络，因此它趋向于生成更模糊的图像[15]。
AAE vs. GAN 和 VAE: AAE 可以看作是 GAN 和 VAE 的结合，它维持着像 GAN 那样的对抗式网络一样的自编码网络，但同时维持着 kl 散度损失。不是从随机噪声生成图像，它利用编码器部分来学习在某些先验上近似的潜在变量，从而使生成的图像的风格可控。此外，与 VAE 相比，AAE 更好得捕获数据流形。
CAAE vs. AAE: 提出的 CAAE 更类似于 AAE。与 AAE 的主要区别是，提出的 CAAE 分别在编码器和生成器上加了鉴别器。编码器上的鉴别器保证了潜在空间的平滑过渡，生成器上的鉴别器辅助生成逼真的人脸图像。因此，CAAE 会比 AAE 产生更高质量的图像，如 4.4 节所述。

4 实验

实验数据集使用 SiblingDB 和 CeleAHQ。文中基于这两个数据集生成了 76800 对男女人脸，大约 4 百万图像对，控制向量。实验结果展示：

量化结果

本文使用了三种方式量化：

亲属关系验证模型的准确率（越高越说明具有亲属关系）
孩子与父母的人脸识别准确率（越低说明可以区分为两个人）
人为打分（真人打分）

结果如下：