NVIDIA 多实例 GPU

单个 GPU 内含七个加速器

多实例 GPU (MIG) 可提升每个 NVIDIA A100 Tensor 核心 GPU 的性能和价值。MIG 可将 A100 GPU 划分为多达七个实例,每个实例均与各自的高带宽显存、缓存和计算核心完全隔离。现在,管理员可以支持从大到小的各项工作负载,为每项工作提供规模适当的 GPU,而且服务质量 (QoS) 稳定可靠,从而优化利用率,让每位用户都能享用加速计算资源。

优势概览

更多用户享受到 GPU 加速能力

更多用户享受到 GPU 加速能力

借助 MIG,您可以在单个 A100 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 为研发人员提供了更多的资源和更高的灵活性。

优化 GPU 利用率

优化 GPU 利用率

MIG 允许您灵活选择许多不同的实例大小,从而为每项工作负载提供适当规模的 GPU 实例,最终优化利用率并使数据中心投资充分发挥成效。

同时运行混合工作负载

同时运行混合工作负载

凭借 MIG,能以确定性延迟和吞吐量,在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载。

技术工作原理

若不使用 MIG,则同一 GPU 上运行的不同工作(例如不同的 AI 推理请求)会争用相同的资源(例如显存带宽)。显存带宽更大的工作会占用其他工作的资源,导致多项工作无法达成延迟目标。借助 MIG,工作可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量并尽可能提升 GPU 利用率。

Multi Instance GPU

实现超高的数据中心灵活性

一个 NVIDIA A100 GPU 可划分成不同大小的 MIG 实例。例如,管理员可以创建两个各有 20 千兆字节 (GB) 内存的实例、三个各有 10 GB 内存的实例、七个各有 5 GB 内存的实例或者它们的组合。因此,系统管理员可以根据不同类型的工作负载为用户提供适当规模的 GPU 资源。

管理员还可以动态地重新配置 MIG 实例,从而能根据不断变化的用户和业务需求调整 GPU 资源。例如,白天可以使用七个 MIG 实例进行低吞吐量推理,而夜间可以重新配置为一个大型 MIG 实例,以进行深度学习训练。

提供出色的服务质量

每个 MIG 实例都有一套专用于计算、内存和缓存的硬件资源,从而能为工作负载提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。这样一来,如果某个实例上运行的应用程序发生故障,并不会影响其他实例上运行的应用程序。而且,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理或高性能计算应用程序等。由于这些实例并行运行,因此工作负载也在同一个物理 A100 GPU 上同时运行,但它们彼此相互独立、隔离。

MIG 非常适合 AI 模型开发和低延迟推理等工作负载。这些工作负载可以充分利用 A100 的功能,并且很适合在每个实例的已分配内存中运行。

为 IT 和开发运营打造

MIG 为方便 IT 和开发运营团队开展部署工作而打造。

每个 MIG 实例对于应用程序都像独立 GPU 一样运行,因此 CUDA® 编程模式没有变化。容器(例如来自 NGC™ 的容器)中的 AI 模型和高性能计算应用程序可以通过 NVIDIA Container Runtime 直接在 MIG 实例上运行。MIG 实例作为附加的 GPU 资源出现在 Kubernetes 等容器编排工具中,这些工具可以安排容器化工作负载在特定 GPU 实例内运行。这项功能很快便可通过 适用于 Kubernetes 的 NVIDIA 设备插件提供

组织可以通过 NVIDIA Virtual Compute Server (vComputeServer) 在 MIG GPU 实例上利用基于服务器虚拟化平台的服务器虚拟化在管理、监控和操作方面带来的优势(包括实时迁移和多租户)。

Deep dive into the NVIDIA Ampere Architecture.