- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
香港中大-东升国际官网科技结合尝试室AAAI录用论文详解:自监督语义宰割的混合与匹配调节
这篇文章介绍了香港中大-东升国际官网科技结合尝试室的新论文「Mix-and-Match Tuning for Self-supervised Semantic Segmentation」,该论文被 AAAI 2018 录用为 Spotlight。
作者:Xiaohang Zhan、Ziwei Liu、Ping Luo、Xiaoou Tang、Chen Change Loy
用于语义宰割的卷积神经网络通常必要大量的标注数据来进行预训练,例如 ImageNet 和 MS-COCO。自监督进建最近被提出来,重要用来削减标注工作量,它的预训练过程中无需任何人为标注。此项钻研已经在图像宰割领域中得到了利用(Zhang, Isola, and Efros 2016a; Larsson, Maire, and Shakhnarovich 2016; 2017)。其关键在于,在此过程中引入了一个无监督的「预训练工作」,这个工作能够在无标注数据上执行,用来进建图像的描述。然而,好多预训练工作不足可能对指标工作进行有效分辨的监督信号,导致最终的了局迸仔监督的初始化要低好多。在本文的钻研中,我们通过引入「混合与匹配」的机造来解决这个局限性。这个机造能够兼容好多自监督与训练步骤,相迸宗原来的规划无需更多的标注数据。利用了「混合与匹配」机造的自监督初始化模型,其最终了局能够匹敌甚至超过全监督的初始化模型。
自监督进建通常分为两个步骤:无监督的预训练和对指标工作的微调。预训练步骤不只必要数据自身,而无需数据的标注了局。它必要设计一个预训练工作,利用从数据自身到的的监督信号来训练。例如,图像上色工作(Larsson, Maire, and Shakhnarovich 2017),利用了图像可分化成亮度和色彩这样的特点,通过输入图像亮度,来预测图像的色彩。在此过程中进建到带有某种程杜罪义的图像描述子,并将之通过微调利用在最终的语义宰割工作上。自监督进建展示出其壮大的进建能力,即便在没有标注的数据上,也能获得不错的初始化成效,大大超过了随机初始化的模型。
只管自监督进建很有远景,但目前其阐发了局还远不如有监督的初始化。例如,使用 VGG-16 网络,用图像上色来进行预训练,在 PASCAL VOC2012 上能得到 56.0% mIoU 的了局,大大超过随机初始化的 35.0% mIoU 的了局。但用 ImageNet 分类工作来初始化,则能够达到 64.2%。这注明自监督预训练和有监督预训练之间还有较大的差距。

图一:(a)展示了来自「汽车」和「巴士」两个类此外图像块,它们拥有极度相近的色彩散布。(b)展示了这两个类此外深层特点散布,执行过「混合与匹配」的特点对于这两个类别有更好的分辨性。

图二:我们提出的步骤的整体流程图。东升国际官网步骤在自监督预训练工作与最终指标工作之间插入了「混合与匹配」过程。
我们以为这个差距的重要原因在于,自监督预训练工作和最终的指标工作在语义档次上有较大的区别。例如对于图像上色来说,这个工作中网络能学到对色彩散布比力敏感的图像描述子,这样的描述子对图像上色很有援手,但对更高的语义档次,其作用会弱好多。例如,在图一(a)中,汽车和巴士的色彩散布极度靠近,因而基于图像上色得到的图像描述子,对于汽车和巴士会有大领域的沉合,难以分辨,见图一(b)。
要提升自监督图像宰割的阐发,必要让图像描述子对指标工作有更好的分辨能力。然而这个指标并不容易,由于图像宰割的数据集通常很幼,其标注数量很少,通常来说只有几千张图片。现有的步骤通常用「Softmax」损失函数来利用这些标注,对于初始化得很好的有监督初始化网络,它是足够有效的,但对于初始化较差的自监督初始化网络,「Softmax」是不够的。我们以为,利用以像素为单元的图像宰割的标注,「Softmax」并不是唯一的方式。
在这项钻研中,我们提出了一个新的战术,接赘混合与匹配」(Mix-and-Match),来更好地利用有限的标注信息,从而提升自监督初始化网络的机能。见图二,「混合与匹配」紧接自监督预训练工作之后,作为一个中央过程用来添补预训练工作和指标工作之间的差距。值妥贴心的是,此过程只使用了指标工作的数据和标注,并不必要额表的数据或标注。
此过程分为「混合」与「匹配」两个步骤。在「混合」步骤中,我们从指标工作图像中随机抽样了大量的部门图像块并混合在一路。这些图像块逾越了多张图像,因而可能减弱图像内部的有关性,从而无偏地反映指标图像的散布。由这些图像块组成的大量的三元组也可能为优化提供不变的梯度。在「匹配」过程中,我们构建了一个无向图,它的节点即图像块的深层特点。它有两种类型的边,若是两个图像块属于统一类,那么我们界说为「相吸边」,反之,则界说为「相斥边」。我们通过迭代的方式构建的图能够确保同类的节点组成一个连通子图,见图三。在此方式构建的图中,我们能够获得越发鲁棒的三元组,可能让网络学会将同类的图像块映射到统一个点上,或者说优化的过程中使得它们的描述子在欧几里得空间中组成单个中心,而非多个中心,并且使得分歧类之间拥有较大的距离。我们抽样三元组的方式和以往的工作拥有极度大的分歧。

图三:此图展示了分歧的构建三元组的方式。节点的色彩代表其类别。蓝色和红色的边别离代表「相吸边」和「相斥边」。(a)是随机选择的三元组(Schroff, Kalenichenko, and Philbin 2015),其中来自一样类的节点不能组成一个连通图。(b-i)和(b-ii)是我们通过构建无向图来构建三元组的步骤。我们构建的无向图中,每一类都别离组成一个连通子图。
东升国际官网工作的贡献重要有:1. 我们提出了「混合与匹配」的调节机造,初次让自监督预训练的模型超过了有监督预训练的模型。具体来说,在 PASCAL VOC2012 数据集上,在 VGG-16 网络上,使用图像上色作为预训练工作,东升国际官网步骤获得了 64.5% mIoU 的机能,超过了 ImageNet 分类作为预训练工作的模型,64.2%。在 CityScapes 数据集上,我们得到了 66.4% 的机能,匹敌 ImageNet 预训练的了局,67.9%。此提升极具显著性,思考到东升国际官网步骤是基于无监督预训练的。2. 除了利用图像上色作为预训练工作,我们还利用基于图像内容的自监督步骤——Jigsaw Puzzles,获得了较大的提升。3. 使用随机初始化,在分歧网络结构和分歧数据集上,东升国际官网步骤也获得了显著的提升。这使得随机初始化训练语义宰割成为可能。4. 我们提出的一种新的基于类内连通图的三元组抽样规划,相迸宗传统的三元组抽样规划越发鲁棒。

表一:在此数据集是公认的语义宰割数据集,PASCAL VOC2012 数据集上的了局对比。东升国际官网步骤同时在 VGG-16 和 AlexNet 上大幅度超过了目前最好的基于自监督初始化的步骤,并且在 VGG-16 上超过了 ImageNet 初始化的步骤。

表二:PASCAL VOC2012 上单类语义宰割了局。

图四:此图展示了使用了东升国际官网步骤之后,图像特点散布的变动。

表三:此表格展示了分歧数据集下,用分歧网络结构,和分歧预训练工作(蕴含随机初始化),东升国际官网步骤获得的提升成效。

图五:了局可视化。






返回