Semi-Supervised Semantic Segmentation with High- and Low-level Consistency

TPAMI 2019

论文原文

 code

创新点：

利用两个分支结构分别处理low-level和high-level的特征，进行半监督语义分割

网络结构

上分支：Semi-Supervised Semantic Segmentation GAN (s4GAN)

下分支：Multi-Label Mean Teacher (MLMT)

s4GAN

训练segmentation network \(S\)

segmentation network \(S\)的损失函数由以下三部分组成：

Cross-entropy loss

输入原图到segmentation network \(S\)中，对于labeled images，输出的分割结果\(S(x^l)\)和标签\(y^l\)对比，计算交叉熵损失\(L_{ce}\)
Feature matching loss

为了使得分割结果\(S(x^l)\)和标签\(y^l\)的特征分布尽可能一致，本文计算分割结果\(S(x^l)\)和标签\(y^l\)的特征分布差异mean discrepancy，并设计Feature matching loss

上式中\(D_k\)表示discriminator的第\(k\)层

注：此Feature matching loss适用于有标签和无标签的数据
Self-training loss

本文认为，在训练过程中generator和discriminator需要达到某种平衡，如果discriminator过于strong，则无法给generator任何有用的学习信号。因此，对于unlabeled image，本文每次将generator产生的，可以成功欺骗discriminator的分割图当作真实标签，用于监督学习。由此可以促使segmentation network（即generator）变强，且一定程度上阻碍discriminator的进步，不希望discriminator过于强大，破坏平衡。

具体而言，discriminator在s4GAN中用于在image-level判断一张分割图是真实标签（real label），还是segmentation network的输出（fake label），根据为真实标签的可能性输出一个0～1之间的概率值（若为真实标签，则输出1）

文章设置闸值，对于输出大于闸值的分割图，作为高质量的预测图，当作真实标签，用于监督学习，并计算交叉熵损失

s4GAN总损失：

训练discriminator

discriminator的输入包含原图image和对应标签，训练discriminator，希望discriminator能给真实标签打高分，给fake label打低分。具体损失函数和传统的GAN相同。

（channel wise）

MLMT

该分支包含两个网络，分别为学生网络和老师网络，训练时，一张image经过微小的，不同的扰动之后分别输入学生网络和老师网络，学生网络和老师网络使用online ensemble的weight（老师网络是学生网络学习的目标，老师网络的权重在学生网络的基础上根据指数平均移动线移动，详见论文）。本文希望学生网络的输出和老师网络的输出尽可能一致，则对于所有image，使用均方误差来衡量两个网络输出的差异，对于labeled image，同时使用类交叉熵函数计算损失

Network Fusion

简单的通过deactivate segmentation networks的输出中没有出现在input image中的图片来融合两个网络的结果。

对于一张image分割图的一个类别c的mask,尺寸为\(HxWx1\)，（对于每一个像素？）如果学生网络的输出（soft label）小于设定的某个闸值，则令segmentation network的输出为0，否则segmentation network的输出不变。

实验

数据集：

PASCAL VOC 2012 segmentation benchmark, the PASCAL-Context dataset, and the Cityscapes dataset.

网络具体结构：

segmentation network：

deeplab v2

discriminator：

4层卷积层，通道数分别为\({64,128,256,512}\),卷积核大小为4x4，每个卷积层后面都有一个negative slope of 0.2的Leaky-ReLU层和一个dropout概率为0.5的dropout层（该高概率的dropout layer对于GAN的稳定训练非常关键）。最后一个卷积层后面是一个全局平均池化层和全连接层，全局平均池化的输出用于Feature matching loss的计算