东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基 ,SenseCore东升国际官网AI大装置为主题基座 ,布局多领域、多方向前沿钻研 ,
急剧买通AI在各个垂直场景中的利用 ,向行业赋能。

CVPR 2023 Highlight | Consistent-Teacher:半监督指标检测超强SOTA

2023-09-30

1.png

2.jpg


半监督指标检测的近况总结


指标检测是推算机视觉领域的主题问题之一 ,其沉要性不成忽视。然而 ,要实现正确的指标检测 ,必要大量象征的数据 ,这也是该领域的一个关键问题;痪浠八 ,数据标注是指标检测算法的基础 ,不足足够的象征数据将会极大地限度算法的机能和利用领域。因而 ,解决数据标注问题是实现正确、高效指标检测的必要前提。


半监督进建(SSL)是一种利用少量有标签数据和大量无标签数据进行训练以提高模型机能的机械进建步骤。在图像分类、指标检测等领域 ,SSL已经被宽泛利用。在指标检测领域 ,半监督指标检测(SSOD)可能有效利用大量无标注数据进行训练 ,拥有沉要的利用价值。


SSOD的根基模式是Teacher-Student[4,5,6,7]模式。该步骤首先利用少量已标注数据对初始模型进行训练 ,同时使用老师模型对大量未标注数据进行揣度 ,并将揣度了局作为伪标签参与训练集。进展学生模型可能正确检测这些伪标签 ,并对加强后的输入样本做出一致的预测。


我们首先介绍这篇论文的基线模型Mean-Teacher ,方便读者对这篇论文有更好的理解。


3.png


如图所示 ,Mean-Teacher[1]是一种半监督指标检测框架。它利用有标签数据和无标签数据进行训练 ,其中Teacher模型天生伪标签 ,并给Student模型作为监督信号。Teacher模型的参数由是Student模型参数的指数滑动均匀(Exponential Moving Average)得到。相对应 ,Student模型在进行过加强的未标注样本上进行训练 ,利用Teacher模型揣度得到的伪标签进行监督。通过这种方式 ,Mean-teacher实现多视角一致的自监督训练。


在Mean-Teacher的基础上 ,现有半监督指标检测步骤通过各类步骤提高伪标签的正确性 ,但由于不足足够的标注数据 ,训练过程中时时出现伪标签天堑框质量较差的问题 ,这会导致模型的不不变性和机能的降落。


本文对伪标签质量较差的原因进行系统性的分析 ,发现关键问题在于伪标签的不不变性不一致性 ,从而赐与Student模型不不变以及不一致的伪监督信号。


伪标签的不不变性:SSOD的阿喀琉斯之踵


在半监督指标检测中 ,天生的伪标签存在不不变(Inconsistency)的问题 ,这不仅影响伪标签的正确性 ,也会导致模型训练的不不变和机能降落。


主流的半监督指标检测器天生伪标签时是基于当前时刻的Teacher模型的预测。与全监督训练时的静态标签(在训练过程中不会变动)分歧 ,一个无标签图像中一个物体的伪标签可能在训练过程中某个功夫点出现 ,不休变动 ,直至最后不变或隐没。在使用这种极不不变的伪标签监督下进行训练会导致一系列问题 ,如模型机能降落、难以达到梦想成效等。我们列举了三种不不变性产生的原因如下:


分配不一致


当前主流的两阶段(Two-stage)或者单阶段(Single-stage)指标检测网络都使用基于IoU阈值的静态anchor分配步骤 ,这种步骤对于伪标签框中的噪声极度敏感。即便伪标签框中只有微幼的噪声 ,伪标签的不不变性也会导致anchor分配的分歧。


本文通过下图注明在Mean-Teacher框架下RetinaNet[2]检测器中 ,伪标签不不变性会导致的问题。绿色和红色的天堑框是北极熊的现实天堑框和伪天堑框 ,红点是伪标签的锚定框。热图显示了老师模型预测的密集相信度得分。


在Mean-Teacher中 ,由于Teacher天生伪标签的不不变性 ,在利用伪标签对Student进行伪监督训练时 ,Student会不断地将anchor assign到旁边的木板上。由于这种不一致的标签 ,Student模型最终会过拟合噪声并导致左近的木板被检测到并谬误地分类为北极熊。



4.png

本文同使毓示了一个anchor box 在训练过程中动态变动的动图。如下图(a)为Mean-Teacher ,使用基于IOU阈值的静态anchor分配步骤 ,随着训练进行 ,由于Teacher天生伪标签的不不变性 ,在利用伪标签对Student进行伪监督训练时 ,Student会不断的将anchor assign到旁边的木板上。而本文提出的Consistent-Teacher ,如下图(b)则能够不变持续的定位到正确的远风物体并分配正确的分配anchor。


5.gif

(a) Mean-Teacher 


6.gif

(b) Consistent-Teacher


这种对噪声的过拟合同样能够在分类损失图中看到 ,不一致的伪指标会导致分类分支过拟合 ,而回归损失则难以收敛(如下图)。


7.png


工作不一致


在主流的半监督指标检测步骤中 ,分类与回归工作的不一致也是导致不不变性的一个沉要原因。


为了筛选高质量的伪标签 ,通;崾褂梅掷嘞嘈哦茸魑副 ,并设置阈致反筛除低相信度的伪标签框。然而 ,一个伪标签框的分类相信度曲直并不愿定能反映其定位正确度的凹凸。


因而 ,利用分类相信度进行伪标签筛选的步骤会进一步加剧伪标签在训练过程中的不不变性。如下图(a)所示 ,Mean-Teacher中存在大量分类相信度高但是回归不正确(与GT的IOU较低)的定位框。


8.png

(a) 工作不一致 

9.png

(b) 时序不一致


时序不一致


固定阈值筛选伪标签的步骤同样会导致不一致性。在半监督指标检测中 ,为了筛选高质量的伪标签进行训练 ,时时选取一个固定的阈值对分类的相信度进行筛选。然而 ,这种步骤会导致在训练分歧阶段的不一致性。


在训练初期 ,由于模型对预测了局不够自负 ,固定的阈值会导致过少的伪标签框被筛选 ,而随着模型的不休训练 ,每张图的伪标签框数量会逐步增多 ,直到训练后期过多。


这种伪标签框数量的不一致同样会导致Student网络训练的不一致。如上图(b) ,分歧threshold的Mean-Teacher均会出现“伪标签框数量随着训练逐步增多”的不一致景象。


Consistent Teacher


在分析现有半监督指标检测伪标签的偏移问题与不不变性后 ,本文提出了一种新的半监督指标检测步骤Consistent-Teacher ,整体如下图。


Consistent-Teacher设计了三种?槔唇饩錾鲜鑫侍 ,蕴含自适应的标签分配(ASA) ,3D特点对齐(FAM-3D)和基于高斯混合模型的自适应阈值(GMM-based Threshold)。


10.png


Consistent-Teacher蕴含一个Teacher模型和一个Student模型 ,其中老师模型的参数是学生模型参数的指数滑动均匀(EMA)。


在训练的每一个iteration ,学生模型一方面在有标签数据上进行有监督训练;另一方面 ,老师模型对无标签数据进行标注 ,得到伪标签框 ,并在对无标签数据进行了强数据加强后 ,训练学生模型。


在这个老师-学生模型的基础上 ,本文提出三种?槔唇饩錾鲜鑫北昵┎灰恢挛侍。


自适应的标签分配(ASA)


上文提到静态anchor分配由于使用IoU阈值宰割来分配anchor ,略微变动就会导致分配的分歧。本文则提出选取自适应的标签分配 (ASA)。


与静态anchor分配分歧 ,ASA为每一对anchor-真实值天堑框推算一个匹配损失 ,而后选择匹配损失最幼的若干对anchor-真实值天堑框作为最终的anchor分配。


3D特点对齐 (FAM-3D)


其次 ,为相识决上文提到的分类与回归工作之间存在的不一致问题 ,本文提出3D特点对齐? (FAM-3D) ,通过使分类特点自适应地检索到最佳回归特点 ,以执行回归工作。以此 ,FAM-3D成功地将分类和回归特点进行了对齐。


具体而言 ,FAM-3D在检测头中额表增长一个分支 ,用于预测最优回归特点地位的偏移量。FAM-3D中的“3D”意味着这个地位偏移量不仅在x和y维度上预测回归特点的偏移量 ,同时还预测特点金字塔中进行跨层的偏移量预测。


我们使用推算出偏移量对分类特点进行沉排 ,即可得到与分类特点对齐的最优回归特点。这个偏移量是通过端到端优化回归特点地位头获得的 ,而不必要手工标注的监督。


最后模型利用分类特点进行分类 ,并利用对齐的回归特点回归检测框。


基于高斯混合模型的自适应阈值(GMM-based Threshold)


最后 ,为相识决硬阈值选择伪标签带来的不一致问题 ,本文提出使用动态的阈值。它随着训练过程中的模型能力变动 ,调整伪标签的阈值。


为了动态的调整伪标签框筛选的阈值 ,Consistent-Teacher将伪标签框筛选的过程看作是一个二分类过程 ,即正样本类为筛选得到的高质量伪标签框 ,负样本类为要筛除的低质量标签框。


本文选取高斯混合模型(GMM)对这个二分类进行建模。将正样本类别和负样本类别别离看作两个高斯散布 ,通过Expectation-Maximum(EM)算法迭代求解高斯混合模型的最优参数 ,通过高斯混合模型得到分类阈值(分辨正样本和负样本)。


在训练中 ,Consistent-Teacher维持一个class-wise的队列存储用于建模GMM的的样本 ,并在训练过程中不休通过GMM获得动态更新的阈值进行自适应的筛选样本。


验证SSOD的不一致性


首先本文画出了伪标签的正确性 ,以及伪标签一致性随着训练不休进行的变动图。本文通过伪标签与真实标签的mAP来衡量伪标签的正确性 ,并通过两个陆续的checkpoint对统一个样本预测的一致性作为伪标签的一致性衡量尺度。


如下图 ,Mean-Teacher的伪标签不一致性远高于 Consistent-Teacher ;随着训练进行不休增长 ,Mean-Teacher的伪标签的mAP也远低于Consistent-Teacher。


11.png


下左图和中央的图显示 ,随着训练的进行 ,Mean-Teacher的伪标签框数量逐步增多 ,会导致训练的不一致性。而本文提出的Consistent-Teacher通过GMM动态的调整并缓慢提高阈值 ,能够维持分歧训练阶段中 ,伪标签框数量相对不变。


12.png


在上右图中 ,Mean-Teacher预测了好多分类相信读高但是定位不正确的伪标签框(左边红色框)。而本文提出的Consistent-Teacher预测的大无数是分类相信读高且定位正确的伪标签框 ,这注明本文提出的步骤能够很好的对齐分类与回归的特点并且预测更为正确的伪标签框。


尝试了局


与SOTA的比力


本文在MS-COCO 2017以及PASCAL VOC数据集上进行尝试。


在MS-COCO 2017分歧比例的有标签的数据上 ,Consistent-Teacher均获得了远超SOTA的了局。如下图可见 ,Consistent-Teacher在1%、2%、5%以及10%的比例(有标注数据的比例)上别离获得了25.30、30.40、36.10以及40.00的mAP ,这个了局不变地比之前的SOTA Dense Teacher[3]逾越3个mAP。


13.png

在COCO-Addition(利用全数的MS-COCO 2017作为有标注数据 ,并使用额表的COCO未标注数据)上本文同样获得了惊人的成效。如下图Table2 ,Consistent-Teacher获得了47.20的超强机能 ,比SOTA高1个mAP。在VOC的尝试上本文提出的Consistent-Teacher同样获得了SOTA的了局。


14.png


以上尝试很好地注明 ,通过解决不一致问题 ,本文提出的Consistent-Teacher能够有效的提升半监督检测模型的机能。


消融尝试


本文进一步进行消融尝试注明本文提出的三个?榈挠行。

15.png


上图Table 5中可见 ,FAM-2D能够带来0.6的提升 ,而FAM-3D能够进一步带来0.4个点的提升。


在Figure 7和8中 ,通过在分歧比例的有标签数据上进行训练 ,及对比分歧固定阈值的模型 ,GMM能够带来不变的0.5个点的提升。


传送门


论文地址

https://arxiv.org/abs/2209.01589


Code地址

https://github.com/Adamdad/ConsistentTeacher


项目主页

https://adamdad.github.io/consistentteacher/


References:


[1] Tarvainen A, Valpola H. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results[J]. Advances in neural information processing systems, 2017, 30.

[2] Lin T Y, Goyal P, Girshick R, et al. Focal loss for dense object detection[C]//Proceedings of the IEEE international conference on computer vision. 2017: 2980-2988.

[3] Zhou H, Ge Z, Liu S, et al. Dense teacher: Dense pseudo-labels for semi-supervised object detection[C]//Computer Vision–ECCV 2022: 17th European Conference, Tel Aviv, Israel, October 23–27, 2022, Proceedings, Part IX. Cham: Springer Nature Switzerland, 2022: 35-50.

[4] Xu M, Zhang Z, Hu H, et al. End-to-end semi-supervised object detection with soft teacher[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021: 3060-3069.

[5] Jeong J, Lee S, Kim J, et al. Consistency-based semi-supervised learning for object detection[J]. Advances in neural information processing systems, 2019, 32.

[6] Sohn K, Zhang Z, Li C L, et al. A simple semi-supervised learning framework for object detection[J]. arXiv preprint arXiv:2005.04757, 2020.

[7] Liu Y C, Ma C Y, He Z, et al. Unbiased teacher for semi-supervised object detection[J]. arXiv preprint arXiv:2102.09480, 2021.

产品试用
填写此单一表格 ,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00 ,13:00-18:00
合作同伴招募
【网站地图】