Visit your regional NVIDIA website for local content, pricing, and where to buy partners specific to your country.
多实例 GPU (MIG) 能够提升 NVIDIA Blackwell 和 Hopper™ 系列 GPU 的性能和价值。MIG 可将 GPU 划分为多达七个实例,其中每个实例均完全独立,并具有各自的高带宽显存、缓存和计算核心。如此一来,管理员便能支持各种规模的工作负载,确保服务质量 (QoS) 稳定可靠,并让每位用户都能享用加速计算资源。
借助 MIG,您可以在单个 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 可让研发人员和开发者获享更多资源和更高的灵活性。
MIG 允许灵活选择许多不同的实例大小,以便针对每项工作负载提供大小适当的 GPU 实例,最终优化利用率并充分发挥数据中心投资的价值。
借助 MIG,可以在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载,并使延迟和吞吐量保持稳定。与时间分片不同,各项工作负载都将并行运行,从而能够提高性能。
若不使用 MIG,则同一 GPU 上运行的不同作业(例如不同的 AI 推理请求)会争用相同的资源。显存带宽更大的作业会占用其他作业的资源,导致多项作业无法达成延迟目标。借助 MIG,作业可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量 (QoS) 并尽可能提升 GPU 利用率。
一个 GPU 可划分成多个大小不同的 MIG 实例。例如,在 NVIDIA GB200 上,管理员可以创建两个各有 95GB 显存的实例、四个各有 45GB 的实例,或七个各有 23GB 的实例。
管理员还可以动态重新配置 MIG 实例,从而根据不断变化的用户需求和业务需求调整 GPU 资源。例如,白天可以使用七个 MIG 实例进行低吞吐量推理,夜间则可以重新配置为一个大型 MIG 实例,以便进行深度学习训练。
每个 MIG 实例都拥有一组专用的计算、内存和缓存硬件资源,因此能够实现稳定可靠的服务质量和故障隔离。这意味着,如果某个实例上运行的应用发生故障,将不会影响其他实例上运行的应用。
这还意味着,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理、高性能计算应用等工作负载。由于这些实例并行运行,因此工作负载也都是在同一个物理 GPU 上并行运行,但它们相互独立、彼此隔离。
Blackwell 和 Hopper GPU 通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,以便协助实现 MIG,进而在硬件和服务器虚拟化管理程序级别利用机密计算安全地隔离每个实例。每个 MIG 实例都有专用的视频解码器,这些解码器能够在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。借助并发 MIG 分析,管理员可以监控规模适当的 GPU 加速,并为多个用户分配资源。
如果工作负载较小,研究人员可以不必租用整个云实例,而是利用 MIG 安全地隔离 GPU 的一部分,同时保证其数据在静态、传输和使用时安全无虞。这可以使云服务提供商更灵活地进行定价,并抓住小型客户带来的商机。
此演示在同一 A100 GPU 上同时运行 AI 和高性能计算 (HPC) 工作负载。
此演示展示了 MIG 单一片段的推理性能,然后在整个 A100 上呈线性增长。
MIG 助力 IT 和开发运营团队进行精细的 GPU 配置。每个 MIG 实例对于应用程序都像独立 GPU 一样运行,因此 CUDA® 平台没有任何变化。MIG 可用于所有主流企业计算环境。
在本地、云端和边缘使用 MIG。
在 MIG 实例上运行容器化应用程序。
在 MIG 实例上调度 Kubernetes Pod。
在虚拟机中的 MIG 实例上运行应用程序。
初步规格,可能会有所变更
详细了解 NVIDIA Blackwell。