对话式 AI

加速从语音识别到语言理解和语音合成的完整流程

AI 驱动的语音和语言服务开创了进行个性化自然对话的革命性途径,但这些服务必须满足严格的准确性和延迟要求,以便实现实时互动。借助 NVIDIA 的对话式 AI SDK,开发者可以快速构建和部署先进的 AI 服务,在单个统一的架构中驱动多个应用程序,仅需少量的前期投资即可提供高精度、低延迟的系统。

 
来自 NGC 的对话式 AI 模型

出色的精度

利用 NGC 提供的对话式 AI 模型,这些模型已在 NVIDIA DGX 系统上基于各种开放的专有数据集进行了超过 100,000 小时的训练。

使用多节点解决方案,打造类似于人类的交互技能

可完全自定义

在流程的每个阶段(从数据、模型到制作流程)自定义语音和语言技能。

在云和数据中心部署优化模型

可扩展部署

轻松扩展应用程序,以便处理成百上千个并发请求。

在 300 毫秒延迟限制下为执行模型推理提供端到端加速

实时性能

在 300 毫秒 (ms) 延迟限制下执行端到端模型推理。

对话式 AI 介绍

下载我们的电子书,了解对话式 AI、其工作原理及其在当今各行各业中的应用方式。

真正的端到端加速

全面加速的制作流程

耗时远低于一秒的完整制作流程推理

完整的对话式 AI 制作流程包括以远低于 300 ms 上限的延迟转录音频的自动语音识别 (ASR)、自然语言理解 (NLU) 和文本转语音 (TTS),从而实现实时互动,同时腾出空间,在不影响用户体验的情况下提升制作流程复杂度。

NVIDIA 对话式 AI 应用程序
解决方案

训练解决方案

轻松开发 NVIDIA NeMo 模型

轻松开发 NVIDIA NeMo 模型

使用开源框架 NVIDIA NeMo™ 构建、训练和微调先进的语音和语言模型。

借助 NVIDIA TAO 工具包进行更智能的训练

借助 NVIDIA TAO 工具包进行更智能的训练

使用产品级 NVIDIA 预训练模型和 NVIDIA TAO 工具包将开发时间加快 10 倍。

用于 AI 基础设施的 NVIDIA DGX A100

在 NVIDIA DGX A100 系统上进行训练

以超快的速度和超高的可扩展性学习包含数十亿个参数的强大语言模型,从而加快求解速度。

部署解决方案

NVIDIA Riva – 对话式 AI 服务

借助 NVIDIA Riva 简化部署

在云端、数据中心和边缘部署经过优化的对话式 AI 服务,以获得出色的性能。

借助 NVIDIA,实现与用户实时对话

使用 NVIDIA EGX 平台在边缘进行部署。

通过在边缘处理大量语音和语言数据实现实时对话,同时避免网络延迟。

使用专门构建的系统进行训练和部署

大规模进行训练

NVIDIA DGX A100 包含 8 个 NVIDIA A100 Tensor Core GPU,是非常先进的数据中心加速器。Tensor Float 32 (TF32) 精度提供的 AI 性能比前几代高 20 倍,而且无需更改代码;另外,它通过在常见 NLP 模型中利用结构化稀疏使性能再提高 2 倍。这样的 A100 设计允许多个 DGX A100 系统大规模地训练包含数十亿个参数的巨大模型,从而提供优异的准确性。NVIDIA 提供 NeMo 和 TAO 工具包,用于在 A100 上分布式训练对话式 AI 模型。

NVIDIA DGX A100 – AI 基础设施通用系统
NVIDIA DGX A100 – AI 基础设施通用系统

在边缘部署

NVIDIA EGX 平台通过在边缘处理大量语音和语言数据,使得兼顾推动实时对话式 AI 和避免网络延迟成为可能。开发者可以使用 NVIDIA TensorRT 优化模型的推理性能,并交付兼具低延迟和高吞吐量的对话式 AI 应用程序。借助 NVIDIA Triton 推理服务器,这些模型可以部署在生产环境中。TensorRT 和 Triton 推理服务器与 NVIDIA Riva(用于对话式 AI 的应用框架)配合使用,可在 EGX 上构建和部署端到端的 GPU 加速流程。Riva 在幕后应用 TensorRT,配置 Triton 推理服务器并通过标准 API 公开服务,从而通过 Kubernetes 集群上的 Helm 图表进行单个命令的部署。

对话式 AI 应用程序

多人讲话转录

传统的语音到文本算法已经得到发展,它们现在能够转录会议、讲座和社交对话,同时识别演讲者并标记他们的贡献。NVIDIA Riva 允许您在呼叫中心和视频会议上创建准确的转录,还允许您自动处理医患互动中的临床笔记。借助 Riva,您还可以自定义模型和制作流程,以满足具体用例需求。

NVIDIA Riva 可实现多传感器音频和视觉数据的融合
使用 AI 驱动型服务与客户互动

虚拟助理

虚拟助理可以通过类似人类的方式与客户互动,从而为联络中心、智能扬声器和车内智能助手的互动提供支持。由于缺少对话跟踪等关键组件,仅凭语音识别、语言理解、语音合成和 vocoding 等 AI 驱动的服务自身还无法支持此类系统。Riva 为这些主干服务补充了易于使用的组件,使它们可以扩展到任何应用程序。

加速企业和开发者库

  • 生态系统合作伙伴
  • 开发者库

使用 GPU 加速的一流语音、视觉和语言工作流程可满足企业级需求。

InstaDeep
Intelligent Voice
Kensho
MeetKai
MTS
NetApp
Quantiphi
Siminsights
Voca.ai

借助热门的对话式 AI 库构建先进的 GPU 加速深度学习模型。

DeepPavlov
ESPNet
Hugging Face
Ludwig
PerceptiLabs
SpaCy
RASA

行业用例

使用 Curai 平台改善患者体验

基于聊天的应用改善了患者体验

借助自然语言处理,Cureai 的平台可让患者将自身状况告知医生,查看自己的病历,帮助服务提供商从医疗对话中提取数据,以更好地告知治疗情况。

Square 利用 GPU 推动对话式 AI

Square 利用 GPU 推动对话式 AI

了解对话式 AI 引擎 Square Assistant,它可帮助小型企业更高效地与其客户进行沟通。

用于预防欺诈的自然语言处理

用于预防欺诈的自然语言处理

据估计,到 2023 年,通过预防欺诈,企业将节省 2000 多亿美元。了解 NLP 如何跨多个信道检测欺诈,以及美国运通、纽约梅隆银行和 PayPal 如何将 NLP 用于欺诈检测策略。

立即开始加速实现对话式 AI

借助 NVIDIA TAO 工具包进行更智能的训练

在 NVIDIA DGX A100 系统上进行训练

借助 NVIDIA Riva 简化部署

在 NVIDIA EGX 平台进行边缘部署

使用 NVIDIA NeMo 轻松构建模型