主题技术: 以原创技术系统为根基，SenseCore东升国际官网AI大装置为主题基座，布局多领域、多方向前沿钻研，
急剧买通AI在各个垂直场景中的利用，向行业赋能。

ECCV 2022 Oral | 无需标注！将CLIP直接用于宰割

2022-09-18

Part 1 传统的微调步骤粉碎了CLIP的盛开集能力

正如导读中所提到的，我们发现CLIP在密集预测工作上存在巨大潜力：同时鉴别多个指标、理解指标间关系、指标不局限于固定词汇集。因而，我们选定语义宰割作为指标工作，对CLIP发展索求。

一个天然而单一的设法就是，将CLIP的图像编码器的权沉加载到骨干网络，同时将指标物体的单词输入到CLIP的文字编码器中得到词向量，并用这些词向量天生分类器。以DeepLab为例：

Part 2 无需训练的MaskCLIP

有了前车之鉴，我们转而预防引入新的参数并尽量维持CLIP原有的特点空间不变。让我们沉新仔细检视一下CLIP的图像编码器，出格是它怪异的全局把稳力池化层（类似于Transformer确把稳力层）：

Part 3 利用MaskCLIP的预测作为伪标签训练宰割模型

固然MaskCLIP预防了对CLIP进行大幅批改从而保障了视觉-说话关联的齐全性且不必要任何训练，但是由于CLIP的图像编码器并不是为语义宰割设计的（例如ResNet的32倍降采样），大大限度了MaskCLIP的机能。因而我们进而提出MaskCLIP+，如上图所示，其主题思想为将MaskCLIP的预测用作伪标签，训练更适合宰割工作的模型（例如DeepLab）Ｄ芄辉て诘氖，MaskCLIP+的机能在训练过程中会超过MaskCLIP，这时再使用MaskCLIP提供监督机能将不会持续提升。因而，一旦观察到这种景象，我们在后续的训练中将使用MaskCLIP+为自己提供伪标签，即自进建。

MaskCLIP+能够被天然地用到零样本语义宰割工作上：对于提供标签的类别使用标签监督，对于无标签类别，用MaskCLIP提供的伪标签监督。因而，我们提供了与现有SOTA的对比，并发现MaskCLIP+远超现有SOTA，甚至险些达到全监督模型的水平。

Part 4 尝试了局

以上测试图片均来自于网络。我们在不使用任何标注的情况下，测试了MaskCLIP(+)对于诸如：色彩、吞吐度、卡通人物、汽车品牌等指标的宰割机能。

我们在这张表格中将MaskCLIP+与现有的零样本宰割SOTA步骤在PASCAL VOC、COCO-Stuff、PASCAL Context上进行了对比。ST为Self-Training的缩写。

有关资料

?项目地址:

https://www.mmlab-ntu.com/project/maskclip

?论文链接:

https://arxiv.org/abs/2112.01071

?开源代码：

https://github.com/chongzhou96/MaskCLIP

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关

产品试用

填写此单一表格，我们将尽快联系您！

把您的需要发给我们相识所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作同伴招募

成为合作同伴