CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作（面部动作描写与神态描写的区别）

原标题：CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作关键字：肢体,动作,面部,音频,提示

文章来源：机器之心

内容字数：5511字

机器之心专栏

机器之心编辑部AI 数字人面部与肢体的驱动算法作为数字人研发的重要环节，可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。

近年来，基于语音生成面部、肢体和手部的动作的各类独立基线模型已经逐渐成熟。然而，直接将不同模型的动画结果混合会导致最终全身整体的动画不协调。研究者逐渐考虑使用统一的框架来同时生成面部表情和肢体动作。

然而，尽管研究社区在面部的表情和肢体的动作上分别存在统一的数据标准，已有的基线模型仅在独立的数据格式上进行训练和评估，比如 FLAME (面部) 和 AMASS (肢体)。社区仍然缺少面向全身的，格式统一的训练数据和基线模型。

针对此问题，东京大学，清华大学，德国马普所的研究者联合提出了 EMAGE，一个从音频和动作的掩码中生成人体全身动作的框架，包括面部、局部肢体、手部和全局运动。论文地址：https://arxiv.org/abs/2401.00374

项目主页：https://pantomatrix.github.io/EMAGE/

视频结果：https://www.youtube.com/watch?v=T0OYPvVi

原文链接：CVPR 2024 | 面部+肢体动画，一个框架搞定从音频生成数字人表情与动作

文章来源：机器之心

作者微信：almosthuman2014

作者简介：专业的人工智能媒体和产业服务平台