NVIDIA 多实例 GPU

单个 GPU 中包含七个独立实例。

多实例 GPU (MIG) 能够提升 NVIDIA BlackwellHopper™ 系列 GPU 的性能和价值。MIG 可将 GPU 划分为多达七个实例,其中每个实例均完全独立,并具有各自的高带宽显存、缓存和计算核心。如此一来,管理员便能支持各种规模的工作负载,确保服务质量 (QoS) 稳定可靠,并让每位用户都能享用加速计算资源。

优势概览

扩展 GPU 的使用范围

借助 MIG,您可以在单个 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 可让研发人员和开发者获享更多资源和更高的灵活性。

优化 GPU 利用率

MIG 允许灵活选择许多不同的实例大小,以便针对每项工作负载提供大小适当的 GPU 实例,最终优化利用率并充分发挥数据中心投资的价值。

运行同步工作负载

借助 MIG,可以在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载,并使延迟和吞吐量保持稳定。与时间分片不同,各项工作负载都将并行运行,从而能够提高性能。

技术原理

若不使用 MIG,则同一 GPU 上运行的不同作业(例如不同的 AI 推理请求)会争用相同的资源。显存带宽更大的作业会占用其他作业的资源,导致多项作业无法达成延迟目标。借助 MIG,作业可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量 (QoS) 并尽可能提升 GPU 利用率。

根据需要调配和配置实例

一个 GPU 可划分成多个大小不同的 MIG 实例。例如,在 NVIDIA GB200 上,管理员可以创建两个各有 95GB 显存的实例、四个各有 45GB 的实例,或七个各有 23GB 的实例。

管理员还可以动态重新配置 MIG 实例,从而根据不断变化的用户需求和业务需求调整 GPU 资源。例如,白天可以使用七个 MIG 实例进行低吞吐量推理,夜间则可以重新配置为一个大型 MIG 实例,以便进行深度学习训练。

安全、并行运行工作负载

每个 MIG 实例都拥有一组专用的计算、内存和缓存硬件资源,因此能够实现稳定可靠的服务质量和故障隔离。这意味着,如果某个实例上运行的应用发生故障,将不会影响其他实例上运行的应用。

这还意味着,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理、高性能计算应用等工作负载。由于这些实例并行运行,因此工作负载也都是在同一个物理 GPU 上并行运行,但它们相互独立、彼此隔离。

Blackwell GPU 中的 MIG

Blackwell 和 Hopper GPU 通过多达 7 个 GPU 实例在虚拟化环境中支持多租户、多用户配置,以便协助实现 MIG,进而在硬件和服务器虚拟化管理程序级别利用机密计算安全地隔离每个实例。每个 MIG 实例都有专用的视频解码器,这些解码器能够在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。借助并发 MIG 分析,管理员可以监控规模适当的 GPU 加速,并为多个用户分配资源。

如果工作负载较小,研究人员可以不必租用整个云实例,而是利用 MIG 安全地隔离 GPU 的一部分,同时保证其数据在静态、传输和使用时安全无虞。这可以使云服务提供商更灵活地进行定价,并抓住小型客户带来的商机。

观看 MIG 使用演示

在单个 A100 GPU 上运行多个工作负载

此演示在同一 A100 GPU 上同时运行 AI 和高性能计算 (HPC) 工作负载。

使用多实例 GPU 提升性能和利用率

此演示展示了 MIG 单一片段的推理性能,然后在整个 A100 上呈线性增长。

为 IT 和开发运营而打造

MIG 助力 IT 和开发运营团队进行精细的 GPU 配置。每个 MIG 实例对于应用程序都像独立 GPU 一样运行,因此 CUDA® 平台没有任何变化。MIG 可用于所有主流企业计算环境。

MIG 规格

  GB200/B200/B100 H100
机密计算 适用 适用
实例类型 最多 7 个 23GB 的实例
最多 4 个 45GB 的实例
最多 2 个 95GB 的实例
最多 1 个 192GB 的实例
7 个 10GB 的实例
4 个 20GB 的实例
2 个 40GB 的实例
1 个 80GB 的实例
GPU 分析和监控 在所有实例上并行运行 在所有实例上并行运行
安全租户 7 个 7 个
媒体解码器 每个实例专用的 NVJPEG 和 NVDEC 每个实例专用的 NVJPEG 和 NVDEC

初步规格,可能会有所变更

详细了解 NVIDIA Blackwell。