NVIDIA 多实例 GPU

单个 GPU 中的七个独立实例

多实例 GPU (MIG) 扩展了每个 NVIDIA H100A100A30 Tensor Core GPU 的性能和价值。MIG 可将 GPU 划分为多达七个实例,每个实例均完全独立于各自的高带宽显存、缓存和计算核心。如此一来,管理员便能支持所有大小的工作负载,且服务质量 (QoS) 稳定可靠,让每位用户都能享用加速计算资源。

优势概览

更多用户享受到 GPU 的强大性能

扩展 GPU 的应用范围

借助 MIG 技术,您可以在单个 GPU 上获得多达原来 7 倍的 GPU 资源。MIG 为研发人员提供了更多的资源和更大的灵活性。

优化 GPU 利用率

优化 GPU 利用率

MIG 允许您灵活选择许多不同的实例大小,从而为每项工作负载提供适当规模的 GPU 实例,最终优化利用率并使数据中心投资充分发挥成效。

同时运行混合工作负载

同时运行工作负载

凭借 MIG,您能以确定性延迟和吞吐量,在单个 GPU 上同时运行推理、训练和高性能计算 (HPC) 工作负载。与时间分片不同,各工作负载并行运行,能够实现高性能。

技术原理

若不使用 MIG,则同一 GPU 上运行的不同作业(例如不同的 AI 推理请求)会争用相同的资源。显存带宽更大的作业会占用其他作业的资源,导致多项作业无法达成延迟目标。借助 MIG,作业可同时在不同的实例上运行,每个实例都有专用的计算、显存和显存带宽资源,从而实现可预测的性能,同时符合服务质量 (QoS) 并尽可能提升 GPU 利用率。

多实例 GPU

根据需要置备和配置实例

一个 GPU 可划分成不同大小的 MIG 实例。例如,在 40GB 的 NVIDIA A100 中,管理员可以创建两个各有 20GB 内存的实例、三个各有 10GB 内存的实例、七个各有 5GB 内存的实例。或者可以创建混合在一起的实例。

管理员还可以动态地重新配置 MIG 实例,从而能根据不断变化的用户和业务需求调整 GPU 资源。例如,白天可以使用七个 MIG 实例进行低吞吐量推理,而夜间可以重新配置为一个大型 MIG 实例,以进行深度学习训练。

安全地并行运行工作负载

每个 MIG 实例借助专用于计算、内存和缓存的硬件资源,从而能够提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。这样一来,如果某个实例上运行的应用程序发生故障,并不会影响其他实例上运行的应用程序。

这还意味着,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理或高性能计算应用程序等。由于这些实例并行运行,因此工作负载也在同一个物理 GPU 上同时运行,但它们彼此相互独立、隔离。

NVIDIA H100 中采用的 MIG

H100 由 NVIDIA Hopper™ 架构提供支持,通过在多达 7 个 GPU 实例的虚拟化环境中支持多租户、多用户配置,进一步增强了 MIG,在硬件和服务器虚拟化平台级别使用机密计算安全地隔离每个实例。借助每个 MIG 实例的专用视频解码器,在共享基础架构上提供安全、高吞吐量的智能视频分析 (IVA)。借助 Hopper 架构的并发 MIG 分析,管理员可以监控合适规模的 GPU 加速,并为多个用户分配资源。 

对于工作负载较小的研究人员,不必租用完整的云实例,他们可以使用 MIG 安全地划出一部分 GPU,同时保证其数据在静态、传输和使用时安全无虞。这提高了云服务提供商的灵活性,以便他们可以根据需要进行定价并抓住小型客户带来的商机。

观看 MIG 使用演示

NVIDIA A100 Tensor Core GPU

在单个 A100 GPU 上运行多个工作负载

此演示在同一 A100 GPU 上同时运行 AI 和高性能计算 (HPC) 工作负载。

NVIDIA A100 Tensor Core GPU 上的多实例 GPU

使用多实例 GPU 提升性能和利用率

此演示展示了 MIG 单一片段的推理性能,然后在整个 A100 上呈线性增长。

为 IT 和开发运营而打造

MIG 助力 IT 和开发运营团队进行精细的 GPU 配置。每个 MIG 实例对于应用程序都像独立 GPU 一样运行,因此 CUDA® 平台没有任何变化。MIG 可用于所有主流企业计算环境。

实现超高的数据中心灵活性

一个 NVIDIA A100 GPU 可划分成不同大小的 MIG 实例。例如,管理员可以创建两个各有 20 千兆字节 (GB) 内存的实例、三个各有 10 GB 内存的实例、七个各有 5 GB 内存的实例 或者它们的组合。因此,系统管理员可以根据不同类型的工作负载为用户提供适当规模的 GPU 资源。

管理员还可以动态地重新配置 MIG 实例,从而能根据不断变化的用户和业务需求调整 GPU 资源。例如,白天可以使用七个 MIG 实例进行低吞吐量推理,而夜间可以重新配置为一个大型 MIG 实例,以进行深度学习训练。

提供卓越的服务质量

每个 MIG 实例都有一套专用于计算、内存和缓存的硬件资源,从而能为工作负载提供稳定可靠的服务质量 (QoS) 和有效的故障隔离。这样一来,如果某个实例上运行的应用程序发生故障,并不会影响其他实例上运行的应用程序。而且,不同的实例可以运行不同类型的工作负载,包括交互式模型开发、深度学习训练、AI 推理或高性能计算应用程序等。由于这些实例并行运行,因此工作负载也在同一个物理 A100 GPU 上同时运行,但它们彼此相互独立、隔离。

MIG 非常适合 AI 模型开发和低延迟推理等工作负载。这些工作负载可以充分利用 A100 的功能,并且很适合在每个实例的已分配内存中运行。

MIG 规格

H100 A100
支持机密计算 支持 -
实例类型 7个 @10GB
4个 @20GB
2个 @40GB(计算能力更强)
1个 @80GB
7个 @10GB
3个 @20GB
2个 @40GB
1个 @80GB
GPU 分析和监控 在所有实例上并行运行 一次仅一个实例
安全租户 7x 1x
媒体解码器 每个实例专用的 NVJPEG 和 NVDEC 有限选项

 初步规格,可能会有所变更

深入研究 NVIDIA Hopper 架构

深入研究 NVIDIA Ampere 架构