NVIDIA Triton 管理服务

可在 Kubernetes 中借助能够高效利用资源的模型编排功能,自动部署多个 Triton 推理服务器实例。

NVIDIA Triton 管理服务是什么?

NVIDIA Triton™ 是 NVIDIA® AI 平台的一部分,可提供一项称为 Triton 管理服务的全新功能。该功能可以在  Kubernetes 上高效利用资源进行模型编排,从而将多个 Triton 推理服务器实例自动部署到 GPU 和 CPU 上。这款软件应用可管理包含一个或多个 AI 模型的 Triton 推理服务器实例的部署,并能够将模型分配给各个 GPU/CPU,还可以按框架高效搭配模型。Triton 管理服务有助于实现大规模推理部署,同时实现卓越的性能和硬件利用率。TMS, 由 NVIDIA AI Enterprise 独家提供,企业级 AI 软件平台,可实现高性能和硬件利用率高的大规模推理部署。

探索 Triton 管理服务的优势

简化部署

可在 Kubernetes 中自动部署和管理 Triton 服务器实例,并且有助于组合源于不同框架的模型,以便高效利用内存。

更大限度地利用资源

可通过租约系统按需加载模型,并在不使用模型时将其卸载;还可以在单个 GPU 服务器上放置尽可能多的模型。

监控和自动扩展

监控每个 Triton 推理服务器的运行状况和容量,还可根据延迟时间和硬件利用率进行自动扩展。

大规模推理

使用 Triton 管理服务可高效管理单个模型乃至数百个模型的推理部署任务。可在本地或任何公有云上进行部署。

及时了解 NVIDIA 最新发布的 AI 推理资讯。