CMU联合Petuum提出contrast-GAN：实现生成式语义处理

选自arXiv

机器之心编译

参与：Smith

在本篇论文中，作者聚焦于一个更具挑战性的语义处理任务，在保持图像独有特征（例如视角和形状）的同时修改物体的语义含义，比如，牛→羊，摩托车→自行车，猫→狗。为了处理这样大型的语义变换，作者引入了一种带有新型对抗式对比目标（adversarial contrasting objective）的对比型 GAN（contrast-GAN）。论文还提出了配有新型比较式目标的、蒙版条件式对比 GAN（mask-conditional contrast-GAN）结构，它能够用目标语义变换使图像背景脱离出来。

论文：https://arxiv.org/abs/1708.00315

生成对抗网络（GAN）最近已经在配对/非配对的图像到图像转译（paired/unpaired image-to-image translation）方面取得了明显的进步，比如照片→简笔画以及艺术绘画风格的迁移。然而，现有的模型只能对低级信息（例如颜色或纹理变化）进行迁移，但不能对目标物体的高级语义含义（比如几何结构或内容）进行编译。

另一方面，尽管在给定一类标签或标注的情况下研究人员可以合成逼真的图像，但是并不能对任意的图形或结构进行处理，这大大地限制了它们的应用场景以及对模型结果的诠释能力。

在本篇论文中，我们聚焦于一个更具挑战性的语义处理任务，在保持图像独有特征（例如视角和形状）的同时修改物体的语义含义，比如，牛→羊，摩托车→自行车，猫→狗。为了处理这样大型的语义变换，我们引入了一种带有新型对抗式对比目标（adversarial contrasting objective）的对比型 GAN（contrast-GAN）。

与之前直接使合成样本逼近目标数据的 GAN 不同，我们的对抗式对比目标是在样本之间对距离比较（distance comparisons）进行优化，使被处理的数据在语义上比输入数据更加接近带有目标类别的真实数据。我们提出了配有新型比较式目标的、蒙版条件式对比 GAN（mask-conditional contrast-GAN）结构，它能够用目标语义变换使图像背景脱离出来。

在 ImageNet 和 MSCOCO 数据集上进行的若干个语义处理任务的相关实验说明了我们的对比式 GAN 比其它条件式 GAN 的性能表现更加可观。量化结果进一步说明了我们的模型在生成可操控结果方面的优势，它们都是高视觉保真和带有合理目标语义的结果。

CMU联合Petuum提出contrast-GAN：实现生成式语义处理

图 1：本文模型的一些实例语义处理结果，将一张图像和一个期望目标物体类别（比如猫和狗）作为输入，然后学着去通过修改它们的外观或几何结构以自动改变目标物体语义。我们展示了每一对的原始图像（左）和处理后的结果（右）。

在本论文中，我们在没有任何配对训练实例的情况下对图像语义处理进行了进一步操作。它不仅仅是通过处理高级目标语义来对图像到图像转译工作进行泛化，也通过尽可能多地保留原始图像所传递的内部特征，推进了可控图像合成的相关研究。

图 1 展示了我们的模型的一些语义处理结果实例。可以看到我们的模型与输入图像相比仅有很少的形状、几何或纹理方面的变化，而且成功地改变了目标物体的语义特征，例如，猫→狗。

通过对比型 GAN 进行语义处理

如图 2 所示，我们的对比型 GAN 对一个条件式生成器 G 进行了学习，它将一个期望语义 cy 和一张输入图像 x 作为输入，然后对 x 进行操作使其进入 y'。语意认知对抗判别器（semantic-aware adversarial discriminators）Dcy 旨在对 y ∈ Y 的图像和结果 y'= G(x, cy) 进行判别。我们的新型对抗式对比损失（adversarial contrasting loss）迫使生成结果 y' 的表征比输入图像 x 的相应表征更加接近于目标区域 Y 里的那些图像 {y}。

CMU联合Petuum提出contrast-GAN：实现生成式语义处理

图 2：对比型 GAN（contrast-GAN）的概述。cy 和 cx 分别表明 X 区域和 Y 区域的物体类别（语义）。Gcy 将样本转译进 Y 区域，Dcy 对处理结果 y' 和真实结果 y 进行区分，反过来对于 Gcx 和 Dcx 也一样。（a）展示了原始的 CycleGAN，使用循环一致性损失（cycle-consistency loss）为每一对分离的生成器和判别器进行优化。（b）展示了对比型 GAN 的工作流程，对一个条件式生成器 G 和几个语义认知判别器 D1, D2, . . . , DC 进行优化，其中 C 是目标物体类别的总数量。我们在 GAN 中引入了一个对抗式对比损失，以激励生成样本 y' 的特征 fy' 比输入 x 的特征更加接近于目标区域 Y 的特征中心 ¯fy。

蒙版条件式对比 GAN（Mask-conditional Contrast-GAN）

图 3 展示了模型的略图，以一张输入图像 x，一个目标物体蒙版 M 和目标类别 cy 作为开始，输出处理图像。注意整个结构对于反向传播来说是全差分（fully differential）的。为了更加清晰，全周期架构（比如，通过 G(y, cx) 映射 y' → xˆ）在图 3 中被省略了。

CMU联合Petuum提出contrast-GAN：实现生成式语义处理

图 3：用于语义处理的蒙版条件式对比 GAN（mask-conditional contrast-GAN），以一张输入图像，一个目标物体蒙版和一个目标类别作为输入。

CMU联合Petuum提出contrast-GAN：实现生成式语义处理

图 4：在给定目标蒙版的情况下，MSCOCO 数据集上蒙版对比型 GAN 和 CycleGAN 对马→斑马和斑马→马转译的结果对比。它展示了整合目标物体蒙版来脱离图像背景和目标语义的效果。其中，λ 和 β 控制着目标物体的相对重要程度。G 试图使此目标最小化，以对抗一组试图将其最大化的判别器 {Dcy }。大量实验表明每一个目标物体都在达到高质量处理结果的过程中扮演着重要角色。

实验结果对比：

CMU联合Petuum提出contrast-GAN：实现生成式语义处理