? ? ?

主题技术: 以原创技术系统为根基，SenseCore东升国际官网AI大装置为主题基座，布局多领域、多方向前沿钻研，
急剧买通AI在各个垂直场景中的利用，向行业赋能。

CVPR 2021 | “以音动人”：姿势可控的语音驱动措辞人脸

2021-08-10

本文不使用任何报答界说的结构信息（人脸关键点或者3D人脸模型），成功实现了人头姿势可控的语音驱动肆意措辞人脸天生。本文的关键在于，隐式地在潜空间（latent space）中界说了一个12维的姿势编码，用于头部活动节造。

本文相迸宗之前的步骤，预防了关键点或者3D模型推算不正确带来的烦恼，又维持了自由度和鲁棒性。实现了在语音节造正确嘴型的同时，用另一段视频节造头部活动。在这一框架下，我们能够让任何人说出马教员经典的“不讲武德”讲话，彩蛋在我们demo video的最后！

本文由香港中文-东升国际官网结合尝试室，东升国际官网科技和南洋理工大学S-Lab等合作实现。

图片 1.png

天生图像的嘴型由音频节造，与音频源视频同步；

天生图像头部活动由姿势源节造，与下方视频同步。

Part 1 工作布景

语音驱动的措辞人脸天生（Talking face, Talking head generation）这一课题自身有多种分歧的尝试设置。此方向的综述能够参考 Lele Chen 的 What comprises a good talking-head video generation? : A Survey and Benchmark [1]。在这里本文Focus的方向为基于单张图像（One-shot），面向肆意人脸，语音驱动setting下的措辞人脸天生问题。具体来说，我们但愿基于一张图片，天生与语音同步的措辞人脸视频。

这一setting下的工作蕴含 VGG 组的You said that? [2] ，CUHK（笔者自己）的DAVS [3]，乐乐的ATVG [4] 以及Adobe周洋和李丁博士的MakeitTalk [5]等等。整体来讲，之前的工作[2][3][4]更多的关注于嘴型的正确性和ID的保留上，从而忽略了头部的天然活动。在本文中我们所试图解决的，是之前措辞人脸天生中人头pose难以节造这一问题。

图片 1.png

ATVG Paper中的对比图

最近的Makeittalk[5]和乐乐的Rhythmic Head[6] 则关注于和幼我ID信息有关的天然头部活动。但是他们的步骤都依赖于3D的结构化信息。

想独立节造头部活动，就必要对Head pose和facial expression，identity做一个解耦。通过思虑我们能够意识到，这种解耦在2D图像和2D landmark的表征中都很难实现。而在我们语音驱动的大前提下，嘴型要和audio对齐，头部活动又要天然，能够说是难上加难。另一方面，3D的人脸表征中，head pose和facial expression能够天然地用分歧的参数节造，能够说是最佳选择。

因而之前的工作，Makeittalk[5]选择了3D的人脸关键点，而Rhythmic Head[6]则直接依赖于齐全地3D沉建。但是基于3D的人脸建模，尤其是在极端场景下，开源步骤的正确度并无法保障。而基于优化算法的3D fitting还会带来大量的预处置职守。所以本文不使用3D或结构化数据，沉新从2D动手解决问题。

Part 2 步骤介绍

东升国际官网步骤Pose-Controllable Audio-Visual System (PC-AVS)直接在特点进建和图像沉建的框架下，实现了对人头pose的自由节造。东升国际官网主题在于隐式地在潜空间（latent space）中界说了一个12维的姿势编码，而这一设计源于对去年CVPR利用styleGAN实现Face Reeanctment[7]的工作（如下图）的参考。

图片 1.png

但他们工作中只说了然styleGAN能够使用augmented frame进行图像到图像的节造。而在语音驱动的措辞人脸问题中，condition现实来自audio的场景下，直接暴力借用这一框架将难以进行训练，由于语音并不能提供人脸姿势信息。

基于对措辞人脸的观察，我们在文中把augmented图像的潜空间，界说为无ID空间（Non-Identity Space）。直观上讲，在此空间中，我们能够沉新寻找嘴型与语音关联的措辞内容空间（Speech Contant Space），和暗示头部活动的姿势空间（Pose Space）。

图片 1.png

我们工作的齐全pipeline如下图所示，训练数据使用的是大量的含语音视频。我们使用肆意的一帧作为ID参考输入，变形另一帧为，并将与对齐的语音的频谱作为condition，试图使用网络复原。

图片 1.png

使用数据集的ID约束，我们能够通过ID encoder 得到Identity Space；借助之前的augmentation，我们通过encder ,得到Non-Identity Space。接下来的问题是若何阐扬audio的作用，以及若何让图像只约束Pose而不节造嘴型。

Learning Speech Content Space. 我们但愿Non-Identity Space的feature经过一个mapping 映射至speech content space中。而这一latent space的进建，重要依赖音频和视频之间天然的对齐、同步信息（alignment）。在之前的工作中这已经被证明是audio-visual领域用处最宽泛的自监督之一[8]。在这里我们使用语音与人脸序列之间的对齐构建contrastive loss进行对齐的约束；对齐的人脸序列和语音特点是正样本，非对齐的为负样本。界说两个feature之间的cos距离为，这一约束能够表白为：

Devising Pose Code. 另一方面，我们借助3D表征中的piror knowledge。一个12维度的向量其实已经足以表白人头的姿势，蕴含一个9维的旋转矩阵，2维的平移和1维的尺度。所以我们使用一个额表的mapping，从Non-Identity Space中映射一个12维的Pose Code。这个维度上的设计极度沉要，若何维度过大，这一latent code所表白的就可能超过pose信息，导致嘴型收到影响。

最后我们把 Identity Space，Speech Content Space 和 Pose code 结合起来，送入基于StyleGAN2[9]刷新的Generator。这三者的信息在Generator中通过图像沉建训练进行平衡，loss大局使用了pix2pixHD的沉建训练loss。在训练中，pose code起作用的道理是，在ID和pose信息都显式地被约束的前提下，Pose Code最容易学到的信息是扭转人头的姿势，以削减沉建的loss。在这一指标下，由于姿势逐步与东升国际官网指标贴合，嘴型的沉建约束也会反过来援手audio feature的进建，从而达到平衡。

Part 3 尝试了局

我们在数值上和质量上与之前SOTA的肆意语音驱动人脸的步骤进行了对比。在数值上，我们对比了LRW和VoxCeleb2两个数据集，沉点关注于天生图像还原度（SSIM），图像清澈度（CPDB），天生嘴型landmark的正确度（LMD）和天生嘴型与音频的同步性，使用SyncNet[8]的confidence score评价（）。

图片 1.png

我们与之前步骤的对比图如下所示：

图片 1.png

更多的Ablation和了局能够参考东升国际官网paper和demo video，这边展示了在极端情况（大角度，低分辨率）的天生了局。展示了若是我们把pose code置0，能够实现转正的措辞人脸成效。

图片 1.png

Part 4 总结

在这个工作中，我们提出了Pose-Controllable Audio-Visual System (PC-AVS)，成功在语音肆意措辞人的setting下，天生了姿势可控的了局。综合来看东升国际官网步骤有以下几个特质值得关注：

东升国际官网步骤不借助预约义的结构信息，仅使用一个图像沉建的pipeline，成功界说了一个对人脸pose的表征。
由style-based generator平衡的训练模式让唇形天生收到更符合的沉建约束，从而提升了唇形对齐的正确度。
我们实现了肆意措辞人脸下的自由人头姿势节造，使天生的了局越发真实。
东升国际官网模型在极端情况下有很好的鲁棒性，并且实现了转正的措辞人脸天生。

有关链接

Paper 地址：https://arxiv.org/abs/2104.11116

Github：https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

Project Page：https://hangz-nju-cuhk.github.io/projects/PC-AVS

References

1.#What comprises a good talking-head video generation?: A Survey and Benchmark https://arxiv.org/abs/2005.03201

2. #Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? In BMVC, 2017. https://arxiv.org/abs/1705.02966

3. #Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI ConConference on Artificial Intelligence (AAAI), 2019. https://arxiv.org/abs/1807.07860

4. #Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. https://www.cs.rochester.edu/u/lchen63/cvpr2019.pdf

5. #Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makeittalk: Speaker-aware talking head animation. SIGGRAPH ASIA, 2020. https://arxiv.org/abs/2004.12992

6. #Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. European Conference on Computer Vision (ECCV), 2020. https://www.cs.rochester.edu/u/lchen63/eccv2020-arxiv.pdf

7. #Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lem-pitsky. Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Burkov_Neural_Head_Reenactment_with_Latent_Pose_Descriptors_CVPR_2020_paper.pdf

8. #Joon Son Chung and Andrew Zisserman. Out of time: auto-mated lip sync in the wild. In ACCV Workshop, 2016. https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf

9.#Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improving the image quality of stylegan. InProceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf

您尚未美满信息

美满信息后，即可下载资料

美满信息跳过，持续浏览

您尚未登录

您还未登录，登录方可持续

登录跳过，持续浏览

请选择您以为必要改进的处所：

导航不好用，不方便找到感兴致的内容
产品介绍信息不够全面
产品介绍信息不容易懂
页面打开速度不快，页面浏览不流畅/有卡顿
页面不够美观
售后服务不好找，履历不好

跳过下一个

您是否可能达到本次网站的接见主张？

是
否
仍在进行中

下一个

您对东升国际官网官网的中意度若何？

极度不中意极度中意

提交

已收到您对东升国际官网官网的评价和建议！

感激您的耐心反馈~

关关

产品试用

填写此单一表格，我们将尽快联系您！

把您的需要发给我们相识所有产品

商务合作

400 900 5986

周一至周五 9:00-12:00，13:00-18:00

business@sensetime.com

合作同伴招募

成为合作同伴