东升国际官网

申请试用
登录
  • hd-share-img01
主题技术
以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。

CVPR 2021 Oral | “无招胜有沼妆?北航、耶鲁、东升国际官网提出用于无数据量化的多样化样本天生

2021-08-10

近年来,量化被视为一种高效实用的神经网络压缩加快步骤,无数据量化步骤也起头被利用于数据隐衷场景。本文将介绍 CVPR 2021 oral 关于无数据量化的最新工作,一种多样性的数据天生步骤 DSG。


相比现有的 SOTA 步骤,DSG 对极低比特量化的机能改善显著,部门场景下能够媲美甚至超过使用真实数据的成效。这项钻研由北京航空航天大学刘祥龙教授团队、耶鲁大学、东升国际官网钻研院工具链团队共同实现。


论文名称:Diversifying Sample Generation for Accurate Data-Free Quantization


图片 1.png


Part 1 布景与概述


近年来,量化已经成为了一种获取高效神经网络的有效步骤。离线量化不必要沉新训练或者微调,作为一种实用而有远景的规划得到了宽泛钻研。然而,这种步骤依然必要真实的训练数据去校准量化后的模型。有使剽些真实数据例如医疗或用户数据由于隐衷或者安全问题难以获得。近期的好多工作提出了无数据的量化步骤。


一些工作(如 ZeroQ)用全精度模型的 BN 统计量来天生最拟合BN统计量的合成数据,解决了对数据的依赖问题。然而,这些步骤天生的数据存在两个显著的同质化问题。


首先是数据散布上的同质化景象:由于合成数据是去匹配批尺度化(BN)统计量参数,每层的特点散布容易过拟合,而真实的数据通常拥有越发多样的散布(见图1(a))。


其次是样本层面上的同质化景象:合成数据的所有样本都是通过同样的指标函数被优化的,即直接将网络每层的损失累加来优化所有样本。这样的话,样本的特点散布统计量会趋于中心化但真实数据往往是分散的(见图1(b))。


这两个同质化问题导致天生数据的散布与真实数据有很大差距,从而导致了量化模型精度的降落。


图片 1.png

 图1.天生数据的两种同质化问题


我们提出了一种多样化的样本天生方式(DSG)来解决上述两个同质化问题,选取松弛对齐散布(SDA)来松弛对 BN 层参数的约束,选取层级样本加强(LSE)来加强特定的天生样本对特定层的约束。DSG 步骤合用于各类离线量化步骤,并且能够获得靠近用真实数据校准的模型的机能,甚至在4bit 上超过了真实数据。


图片 1.png

图2.多样化样本天生(DSG)步骤


Part 2 步骤


Slack Distribution Alignment


我们提出了一种松弛对齐批尺度化的数据散布的步骤(SDA)。我们别离为激活的均值和尺度差统计引入松弛量,以带来丰硕的散布变动。具体来说,将松弛常数增长到原始的批尺度化统计量损失函数中,以解决散布同质化问题。第i个批尺度化层的损失项变为如下大局:

image.png

松弛量image.pngimage.png允许合成数据的统计量与批尺度化层的统计参数之间存在差距。 在特定领域内,合成数据的统计量会在宽松的约束下颠簸。因而,合成数据的特点散布变得越发多样化。


一个沉大的挑战是在不使用真实数据的前提下确定松弛量image.pngimage.png的值。真实数据的特点统计量与批尺度化统计量参数之间的差距能够作为合理的参考。由于无法获取真实数据,凭据中心极限造理,我们能够使用高斯如果作为一个通用的近似值。因而,我们使用从高斯散布中随机采样的合成数据来确定image.pngimage.png。


首先,我们从 μ=0,σ=1 的高斯散布中采样1024个合成样本。而后将合成样本输入模型,并保留所有特点统计信息,即均值和尺度差。


而后推算保留的统计数据与相应的批尺度化层的参数之间的差。选取差的绝对值的分位点作为image.pngimage.png。image.pngimage.png的界说如下:

image.png

其中,image.png和 image.png是高斯散布中采样的合成样本image.png在第i个批尺度化层的激活值的均值和尺度差。image.pngimage.png别离暗示image.pngimage.pngimage.png百分位点。image.png这个在0与1之间的数决定了和的取值,即决定了合成数据统计量对齐批尺度化统计量参数的松弛水平,当该值较大时,对合成数据的约束越发疏松。


其中, 和  是高斯散布中采样的合成样本在第i个批尺度化层的激活值的均值和尺度差。和别离暗示和的百分位点。这个在0与1之间的数决定了和的取值,即决定了合成数据统计量对齐批尺度化统计量参数的松弛水平,当该值较大时,对合成数据的约束越发疏松。


Layerwise Sample Enhancement


为解决样本之间的同质化问题,我们提出了一种层级样本加强的步骤(LSE)。

我们别离设计一个 batch 中每个合成图像的损失函数,从而加强每个样本对于特定层的损失。具体地说,对于拥有 N 个批尺度化层的网络,我们能够提供 N 个分歧的损失项,并将它们中的每一个利用于特定数据样本。


如果每次天生 N 个图像,即批大幼设置为 N,和模型中的批尺度化层的个数一样。我们界说image.png= (image.png)作为加强矩阵,其中I是一个 N 维单元矩阵,1是 N 维全1列向量,L 是蕴含每层损失项的向量。那么该批次的损失函数界说为:

image.png

其中image.pngL 是 N 维列向量,其第 i 个元素暗示该批次中第 i 个图像的损失函数。因而,该批次的每个样本被施加了唯一的损失项,对特定层的损失项进行了加强。对于拥有 N 个批尺度化层的网络,该步骤能够同时批量天生各类样本,每种样本在特定层上进行加强。我们能够将 L 代替为image.png,从而将 SDA 步骤与 LSE 步骤结合。


如图3所示,通过上述两个步骤,我们解决了天生样本的同质化问题,并加强了多样性。

图片 1.png

3.真实样本和天生样本的激活值统计量散布


Part 3 尝试


为了验证该多样化样本天生步骤在分歧网络架构,数据集和分歧量化位宽上的成效,我们在 ImageNet 数据集上使用各类模型与离线量化规划进行了尝试。


表1中了局批注,在 ResNet-18 和 ResNet-50 上,DSG 在各类比特设置下优于 ZeroQ,尤其是在较低比特下。在某些设置下,甚至获得了超过真实数据的了局。


image.png

表1.在ResNet-18(a)和ResNet-50(b)上的对比尝试


表2了局批注,选取各类离线校准步骤时,DSG 相比 ZeroQ 有一致的机能提升。


image.png

表2.ResNet-18上选取分歧离线校准步骤的尝试


为了进一步验证 DSG 的有效性,我们验证了使用最先进的离线量化步骤(AdaRound)时的机能,如表3所示。尝试中,我们也使用了 Label 以及 Image Prior 步骤。了局批注,DSG 依然带来了机能上的提升。


image.png

表3.在ResNet-18上使用AdaRound的尝试


Part 4 总结


本文展示了一种新鲜的用于精确无数据量化的样本天生步骤 DSG,该规划针对合成样本在散布和样本层面上的的同质化问题进行了分解,提出了松弛对齐批尺度化层散布 SDA 和层级样本加强 LSE 两个步骤,共同加强了天生数据的多样性。


事实批注,DSG 在各类网络训练架构和各类离线量化步骤中阐发杰出,尤其在超低位宽前提下,成效大大优于现有技术。东升国际官网工作揭示了现有无数据量化步骤中普遍存在的问题,但愿能为将来的钻研带来启发。


Part 5 作者介绍


论文共同第一作者张祥国,北京航空航天大学硕士二年级,重要钻研方向为模型量化压缩与加快、硬件敦睦的深度进建,以第一作者颁发推算机视觉顶级会议(CVPR)一篇。 论文共同第一作者秦浩桐,北京航空航天大学博士二年级,重要钻研方向为模型量化压缩与加快、硬件敦睦的深度进建。以第一作者颁发顶级会议、期刊(ICLR,CVPR,PR)共4篇。幼我主页:https://htqin.github.io/


团队信息

北航刘祥龙教授团队近年来萦绕模型低比特量化、二值量化、量化训练等方向做出了一系列拥有创新性和实用性的钻研成就,蕴含国际首个二值化点云模型 BiPointNet、可微分软量化 DSQ、量化训练、信息保留二值网络 IR-Net 等,钻研论文颁发在 ICLR、CVPR、ICCV 等国际顶级会议和期刊上。主页:http://sites.nlsde.buaa.edu.cn/~xlliu/


论文链接

https://arxiv.org/abs/2103.01049

产品试用
填写此单一表格,我们将尽快联系您!
商务合作
400 900 5986
周一至周五 9:00-12:00,13:00-18:00
合作同伴招募
【网站地图】