加速从语音识别到语言理解和语音合成的完整流程
AI 驱动的语音和语言服务开创了进行个性化自然对话的革命性途径,但这些服务必须满足严格的准确性和延迟要求,以便实现实时互动。借助 NVIDIA 的对话式 AI SDK,开发者可以快速构建和部署先进的 AI 服务,在单个统一的架构中驱动多个应用程序,仅需少量的前期投资即可提供高精度、低延迟的系统。
利用 NGC™ 提供的对话式 AI 模型,这些模型已在 NVIDIA DGX™ 系统上基于各种开放的专有数据集进行了超过 100,000 小时的训练。
在流程的每个阶段(从数据、模型到制作流程)自定义语音和语言技能。
轻松扩展应用程序,以便处理成百上千个并发请求。
在 300 毫秒 (ms) 延迟限制下执行端到端模型推理。
下载我们的电子书,了解对话式 AI、其工作原理及其在当今各行各业中的应用方式。
完整的对话式 AI 制作流程包括以远低于 300 ms 上限的延迟转录音频的自动语音识别 (ASR)、自然语言理解 (NLU) 和文本转语音 (TTS),从而实现实时互动,同时腾出空间,在不影响用户体验的情况下提升制作流程复杂度。
使用开源框架 NVIDIA NeMo™ 构建、训练和微调先进的语音和语言模型。
使用产品级 NVIDIA 预训练模型和 NVIDIA TAO 工具包将开发时间加快 10 倍。
以超快的速度和超高的可扩展性学习包含数十亿个参数的强大语言模型,从而加快求解速度。
在云端、数据中心和边缘部署经过优化的对话式 AI 服务,以获得出色的性能。
通过在边缘处理大量语音和语言数据实现实时对话,同时避免网络延迟。
NVIDIA DGX™ A100 包含 8 个 NVIDIA A100 Tensor Core GPU,是非常先进的数据中心加速器。Tensor Float 32 (TF32) 精度提供的 AI 性能比前几代高 20 倍,而且无需更改代码;另外,它通过在常见 NLP 模型中利用结构化稀疏使性能再提高 2 倍。这样的 A100 设计允许多个 DGX A100 系统大规模地训练包含数十亿个参数的巨大模型,从而提供优异的准确性。NVIDIA 提供 NeMo 和 TAO 工具包,用于在 A100 上分布式训练对话式 AI 模型。
NVIDIA EGX™ 平台通过在边缘处理大量语音和语言数据,使得兼顾推动实时对话式 AI 和避免网络延迟成为可能。开发者可以使用 NVIDIA TensorRT™ 优化模型的推理性能,并交付兼具低延迟和高吞吐量的对话式 AI 应用程序。借助 NVIDIA Triton™ 推理服务器,这些模型可以部署在生产环境中。TensorRT 和 Triton 推理服务器与 NVIDIA Riva(用于对话式 AI 的应用框架)配合使用,可在 EGX 上构建和部署端到端的 GPU 加速流程。Riva 在幕后应用 TensorRT,配置 Triton 推理服务器并通过标准 API 公开服务,从而通过 Kubernetes 集群上的 Helm 图表进行单个命令的部署。
传统的语音到文本算法已经得到发展,它们现在能够转录会议、讲座和社交对话,同时识别演讲者并标记他们的贡献。NVIDIA Riva 允许您在呼叫中心和视频会议上创建准确的转录,还允许您自动处理医患互动中的临床笔记。借助 Riva,您还可以自定义模型和制作流程,以满足具体用例需求。
虚拟助理可以通过类似人类的方式与客户互动,从而为联络中心、智能扬声器和车内智能助手的互动提供支持。由于缺少对话跟踪等关键组件,仅凭语音识别、语言理解、语音合成和 vocoding 等 AI 驱动的服务自身还无法支持此类系统。Riva 为这些主干服务补充了易于使用的组件,使它们可以扩展到任何应用程序。
使用 GPU 加速的一流语音、视觉和语言工作流程可满足企业级需求。
借助热门的对话式 AI 库构建先进的 GPU 加速深度学习模型。
借助自然语言处理,Cureai 的平台可让患者将自身状况告知医生,查看自己的病历,帮助服务提供商从医疗对话中提取数据,以更好地告知治疗情况。
了解对话式 AI 引擎 Square Assistant,它可帮助小型企业更高效地与其客户进行沟通。
据估计,到 2023 年,通过预防欺诈,企业将节省 2000 多亿美元。了解 NLP 如何跨多个信道检测欺诈,以及美国运通、纽约梅隆银行和 PayPal 如何将 NLP 用于欺诈检测策略。
我们会直接向您的收件箱发送数据科学新闻和内容,敬请期待。
请向我发送 NVIDIA 发布的有关企业的最新动态、公告及其他内容。我可以随时取消订阅。