东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

ECCV 2022 Oral | 无需标注!将CLIP直接用于宰割

2022-09-18

1.png


Part 1 传统的微调步骤粉碎了CLIP的盛开集能力


正如导读中所提到的,我们发现CLIP在密集预测工作上存在巨大潜力:同时鉴别多个指标、理解指标间关系、指标不局限于固定词汇集。因而,我们选定语义宰割作为指标工作,对CLIP发展索求。


一个天然而单一的设法就是,将CLIP的图像编码器的权沉加载到骨干网络,同时将指标物体的单词输入到CLIP的文字编码器中得到词向量,并用这些词向量天生分类器。以DeepLab为例:


image.png


Part 2 无需训练的MaskCLIP


有了前车之鉴,我们转而预防引入新的参数并尽量维持CLIP原有的特点空间不变。让我们沉新仔细检视一下CLIP的图像编码器,出格是它怪异的全局把稳力池化层(类似于Transformer确把稳力层):


image.png3.png

image.png4.png


Part 3 利用MaskCLIP的预测 作为伪标签训练宰割模型


固然MaskCLIP预防了对CLIP进行大幅批改从而保障了视觉-说话关联的齐全性且不必要任何训练,但是由于CLIP的图像编码器并不是为语义宰割设计的(例如ResNet的32倍降采样),大大限度了MaskCLIP的机能。因而我们进而提出MaskCLIP+,如上图所示,其主题思想为将MaskCLIP的预测用作伪标签,训练更适合宰割工作的模型(例如DeepLab)D芄辉て诘氖,MaskCLIP+的机能在训练过程中会超过MaskCLIP,这时再使用MaskCLIP提供监督机能将不会持续提升。因而,一旦观察到这种景象,我们在后续的训练中将使用MaskCLIP+为自己提供伪标签,即自进建。


MaskCLIP+能够被天然地用到零样本语义宰割工作上:对于提供标签的类别使用标签监督,对于无标签类别,用MaskCLIP提供的伪标签监督。因而,我们提供了与现有SOTA的对比,并发现MaskCLIP+远超现有SOTA,甚至险些达到全监督模型的水平。


Part 4 尝试了局


5.png


以上测试图片均来自于网络。我们在不使用任何标注的情况下,测试了MaskCLIP(+)对于诸如:色彩、吞吐度、卡通人物、汽车品牌等指标的宰割机能。


6.png


我们在这张表格中将MaskCLIP+与现有的零样本宰割SOTA步骤在PASCAL VOC、COCO-Stuff、PASCAL Context上进行了对比。ST为Self-Training的缩写。


有关资料


?项目地址:

https://www.mmlab-ntu.com/project/maskclip


?论文链接:

https://arxiv.org/abs/2112.01071


?开源代码:

https://github.com/chongzhou96/MaskCLIP

产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】