使用 Omniverse Audio2Face 和 Riva 构建数字人

报名 AI 培训班

咨询和购买企业专属培训

数字人技术是以人工智能为基础的虚拟智能机器人，它结合了最新的 3D 建模技术和交互式 AI 语音技术的优势，具备出色的亲和性，符合人类自然交流习惯，在元宇宙的大潮中备受瞩目，非常有潜力成为下一代人机交流主要界面。目前，数字人技术已经在泛娱乐、金融、教育、政务、汽车、医疗、零售等领域取得了相当不错的发展势头，成为业界的技术发展热点。凭其灵活的可定制性和高度智能化的特点，数字人技术可以为企业提供高质量、高效率、个性化且低成本的交互服务，从而有效地优化企业运营流程、提升客户体验，增强品牌形象，创造更加美好的商业未来。

本课程主要面向希望学习使用 NVIDIA Omniverse 来构建虚拟数字人的开发人员。从端到端应用开发的角度，课程重点讲解如何使用语音驱动自定义的数字人的面部动作和表情，以及用微服务方式控制数字人的身体动作。课程同时介绍如何通过 NVIDIA Riva 为数字人构建一套交互式语音系统后端，包含自动语音识别（ASR）、NLP 问答，以及语音合成（TTS）等模块。课程最后学习如何将前期开发的各个系统有机串联起来，以构建一个完整的数字人交互系统。

学习目标

参加本次培训，您将学习到：

如何在 Audio2Face 中通过角色迁移驱动任意虚拟人物头像的面部动作
如何通过 Extensions 以及微服务（Microservices）的方式实现虚拟人物肢体动作的控制
如何使用 Riva 快速构建自动语音识别（ASR）系统、基于自然语言的问答系统，以及语音合成（TTS）的发声服务系统
如何有效连接虚拟人和语音系统，从而构建一个基础的交互式虚拟数字人应用

下载课程大纲文档 (PDF 528 KB)

课程大纲

议题	说明
课程介绍（15 分钟）	讲师介绍登录 DLI 学习平台
基于Audio2Face 开发数字人（240 分钟）	了解数字人、开发流程和工具基于 Audio2Face的 3D 数字人开发流程扩展篇：2D Live Portrait 及 ACE 微服务面部动画 Audio2Face及Audio2Emotion 算法原理介绍 Audio2Face 中数字资产的设置与驱动基于 Reallusion CC4 的数字资产准备角色设置及角色迁移 Audio2Face 面部驱动与身体联动 Audio2Emotion 面部表情控制实验 Audio2Face 初步体验角色迁移 Audio2Face 流播放器身体动画身体动画生成插件 (extension) 的编写身体动画的控制及构建服务面部动画与身体动画的结合实验：身体动画的控制
休息（60 分钟）
构建对话式语音系统（120 分钟）	自动语音识别(ASR) 语音识别基本原理实验：使用 NVIDIA Riva 搭建语音识别系统 FAQ 问答系统(NLP-FAQ) 问答系统的类型与应用基于向量检索的 FAQ 问答系统技术方法系统组成模块总体运行流程实验文件结构和数据构建离线向量索引运行在线检索语音合成(TTS) 语音合成基本原理实验：调用语音生成服务从文字生成语音
休息（15 分钟）
构建数字人全流程（60 分钟）	数字人全流程方案简介数字人的技术框架实验：根据提示信息构建完整的数字人流水线
总结和评估（15 分钟）	回顾所学要点并解答问题完成评估并获得证书填写培训调查表
下一步	学习更多 DLI 相关课程：构建基于 Transformer 的自然语言处理应用数据并行 —— 用多 GPU 训练神经网络模型并行 —— 构建和部署大型神经网络