- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
ECCV 2022 Oral | 无需标注!将CLIP直接用于宰割

Part 1 传统的微调步骤粉碎了CLIP的盛开集能力
正如导读中所提到的,我们发现CLIP在密集预测工作上存在巨大潜力:同时鉴别多个指标、理解指标间关系、指标不局限于固定词汇集。因而,我们选定语义宰割作为指标工作,对CLIP发展索求。
一个天然而单一的设法就是,将CLIP的图像编码器的权沉加载到骨干网络,同时将指标物体的单词输入到CLIP的文字编码器中得到词向量,并用这些词向量天生分类器。以DeepLab为例:

Part 2 无需训练的MaskCLIP
有了前车之鉴,我们转而预防引入新的参数并尽量维持CLIP原有的特点空间不变。让我们沉新仔细检视一下CLIP的图像编码器,出格是它怪异的全局把稳力池化层(类似于Transformer确把稳力层):




Part 3 利用MaskCLIP的预测 作为伪标签训练宰割模型
固然MaskCLIP预防了对CLIP进行大幅批改从而保障了视觉-说话关联的齐全性且不必要任何训练,但是由于CLIP的图像编码器并不是为语义宰割设计的(例如ResNet的32倍降采样),大大限度了MaskCLIP的机能。因而我们进而提出MaskCLIP+,如上图所示,其主题思想为将MaskCLIP的预测用作伪标签,训练更适合宰割工作的模型(例如DeepLab)D芄辉て诘氖,MaskCLIP+的机能在训练过程中会超过MaskCLIP,这时再使用MaskCLIP提供监督机能将不会持续提升。因而,一旦观察到这种景象,我们在后续的训练中将使用MaskCLIP+为自己提供伪标签,即自进建。
MaskCLIP+能够被天然地用到零样本语义宰割工作上:对于提供标签的类别使用标签监督,对于无标签类别,用MaskCLIP提供的伪标签监督。因而,我们提供了与现有SOTA的对比,并发现MaskCLIP+远超现有SOTA,甚至险些达到全监督模型的水平。
Part 4 尝试了局

以上测试图片均来自于网络。我们在不使用任何标注的情况下,测试了MaskCLIP(+)对于诸如:色彩、吞吐度、卡通人物、汽车品牌等指标的宰割机能。

我们在这张表格中将MaskCLIP+与现有的零样本宰割SOTA步骤在PASCAL VOC、COCO-Stuff、PASCAL Context上进行了对比。ST为Self-Training的缩写。
有关资料
?项目地址:
https://www.mmlab-ntu.com/project/maskclip
?论文链接:
https://arxiv.org/abs/2112.01071
?开源代码:
https://github.com/chongzhou96/MaskCLIP





返回