- 主题技术
- 以原创技术系统为根基,SenseCore东升国际官网AI大装置为主题基座,布局多领域、多方向前沿钻研,
急剧买通AI在各个垂直场景中的利用,向行业赋能。
tuansmomo解读
在CVPR 2020上,来自CMU,北京大学,清华大学,东升国际官网钻研院的钻研者提出了一种无监督的人体作为迁徙步骤《TransMoMo: Invariance-Driven Unsupervised Video Motion Retargeting》,为作为序列数据建模提供了新思路。
该论文提出了一种新鲜的作为沉定向网络(Motion Retargeting Network)设计,能够在二维关键点空间由无标注的网络数据端到端地训练。作者基于不变性设计了新的损失函数,从而赋予网络无监督地解耦作为特点暗示的能力。将上述作为沉定向网络和基于不变性的损失函数利用于人体作为迁徙工作中,在定性和定量指标上都超过了原先的最佳步骤(state-of-the-art),尤其是在真实世界的复杂作为上获得显著的优势。
工作介绍
人体作为迁徙(Human Motion Transfer)指的是将初始活动视频中初始对象的作为迁徙到指标对象上,以天生指标活动视频。例如,业余爱好者是否能立刻像专业人士一样学会跳分歧风格的跳舞,如探戈,芭蕾,萨尔萨舞等?只管在现实中这险些是不成能的,但此刻人们能够通过人体作为迁徙技术在虚构世界实现这一指标,即将源视频中的专业跳舞演员的活动信息迁徙到业余爱好者的形体上,并渲染天生指标视频。
人体作为迁徙在推算机图形学动画造作和仿朝气器人领域有宽泛的利用,持久以来有很多基于作为捉拿设备的钻研。近年来,随着移动推算的遍及和深度进建在推算机视觉领域的利用,获取人体作为信息的成本大大降低。此表,得益于天生式匹敌网络(GAN)的钻研进展,通过推算机合成高度真实的图像和视频成为可能。因而,设计出一种相宜的基于视频数据的人体作为迁徙步骤对很多利用领域都极度沉要,例如影视成效、内容创作、在线娱乐等,这也是本文想要探求的沉点。
动机/难点
从前向理人体作为迁徙的问题上,有好多钻研通过精确的3D人体姿势估计或沉建来实现。这些步骤往往必要复杂耗时的优化过程,并且在真实场景中的复杂作为视频中阐发欠安。在本文中,作者重要设计了一种可在二维人体骨骼空间端到端进建的作为迁徙框架,从而绕过了显式的3D姿势估计过程。只管最近在天生模型和人体作为合成领域有很多进展,在2D空间进建作为迁徙依然是一个富有挑战性的工作,重要有以下难点:
由于初始活动视频和指标活动视频存在很大的结构和视角差距,很难在像素级别上成立源-指标的映射。尤其当初始对象做出复杂作为(如躺倒,倒立,陆续旋转等),或者初始对象和指标对象的结构差距比力大(如成人与儿童等),传统的作为迁徙步骤正确度较低。
很难在真实世界中找到配对的作为-角色数据作为人体作为迁徙工作的有效监督信号。
人体活动出现出复杂的非线性,很难成立正确的模型和参数来刻画人体作为迁徙的过程。
步骤介绍
框架设计
为了应对第一个难点,作者不直接选取基于像素级映射的视频转换(video-to-video translation)步骤,而是将作为迁徙过程分为三个阶段,即人体关键点检测(skeleton extraction),作为沉定向(motion retargeting),以及视频渲染(skeleton-to-video rendering)。通过对工作的分化,只必要集中解决作为沉定向这一问题,此问题的输入和输出都是2D人体关键点序列。
整体框架示意图
为了应对第二和第三个难点,作者利用人体活动数据中三个维度的特点的不变性。三个维度的特点即活动(motion),指的是身段各部门的移动语义信息;结构(structure),指的是身段的比例信息;视角(view),指的是身段和相机的相对朝向信息。理论上,凭据这三个信息可能沉建整体活动,且这三部门信息相互独立,任一信息对另两者的扰动(perturbation)具备不变性。具体地来说,作者以为它们应拥有如下性质:
活动信息应该关于结构和视角扰动拥有不变性。
结构信息应该在统一段视频中关于功夫拥有不变性,且对视角扰动有不变性。
视角信息应该在统一段视频中关于功夫拥有不变性,且对结构扰动有不变性。
训练实现
训练实现上,作者使用3D人体的旋转作为视角信息的扰动;肢体缩放(Limb Scaling)作为结构信息的扰动;活动信息无需显式增长扰动,由于其自身就随功夫变动;谡庑┤哦,作者要求网络沉新编码的特点别离拥有上述不变性,能够推导出一系列齐全无监督的损失函数,进而通过训练自编码器(Autoencoder)将人体关键点序列信息解耦为活动、结构、视角三个相互正交的信息分量。
视角信息的扰动(View Perturbation)及沉建
结构信息的扰动(Structural Perturbation)及沉建
如图所示,有关细节请参考论文。
借助解耦的暗示,我们能够很容易地将来自分歧视频的活动分量和结构分量配对后再解码到关键点空间,就实现了作为沉定向。此表,我们还能够显式地把持视角信息,得到天生作为序列在分歧视角下的投影。值得一提的是,作者提出的作为沉定向网络是一个轻量级、即插即用的?,能够和现有的各类人体关键点检测和视频渲染步骤串联使用。
了局展示
作者别离在Mixamo合成角色数据集和自己采集的真实人物数据集上做了定量和定性的评测。了局显示,本工作在作为迁徙误差(MSE/MAE)和天生图像的真实度(FID/User Preference)上都比目前的SOTA步骤有显著提升,了局见Table1。
其中,该工作用了训练数据中至少的信息,既没有效角色-作为间的配对信息,也没有效输入的3D信息。此表,作者提出的步骤使得在肆意人体活动视频上训练成为可能,这是此前的步骤没有法子做到的。尝试了局批注,使用网上采集的真实视频训练的模型(Ours wild)获得了最好的阐发。
该步骤还允许编码空间的陆续插值。如图所示,横向是结构信息的特点插值,纵向是作为信息的特点插值。这批注网络可能成功解耦这两个变量,并且进建了拥有优良散布性质的特点子空间。
此表,由于自动编码器的输出是3D火柴人,我们能够肆意地调整沉定向了局的视角方向。
分析总结
总体来说,作者提出的无监督作为迁徙步骤在对训练数据的依赖水平、迁徙的正确度、天生了局的质量等方面均比之前的同类型步骤有突破。这种机能上的提升重要起源于以下创新点:
在2D关键点空间实现特点解耦,预防了3D关键点估计的误差
和先前的隐式无监督步骤相比,显式的不变性驱动的损失函数提高了训练数据效能(Data efficiency)
肢体缩放的设计提升了网络处置身段比例差距较大情景的能力
和先前在合成数据集上的监督进建步骤相比,使用网络数据无监督训练大大增长了训练时的作为多样性
另表,该工作设计的作为沉定向网络实现了无监督特点解耦,可能对人体活动建模的其他问题有肯定的启发。
References
Ruben Villegas, Jimei Yang, Duygu Ceylan, and Honglak Lee. Neural kinematic networks for unsupervised motion retargetting. In CVPR, 2018.
Caroline Chan, Shiry Ginosar, Tinghui Zhou, and Alexei A. Efros. Everybody dance now. In ICCV, 2019.
Kfir Aberman, Rundi Wu, Dani Lischinski, Baoquan Chen, and Daniel Cohen-Or. Learning character-agnostic motion for motion retargeting in 2d. ACM Trans. Graph., 38(4):75:1–75:14, 2019.
Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Guilin Liu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. Video-to-video synthesis. In NeurIPS, 2018.
R?za Alp Güler, Natalia Neverova, and Iasonas Kokkinos. Densepose: Dense human pose estimation in the wild. In CVPR, pages 7297–7306, 2018.





返回