NVIDIA Virtual Compute Server

利用虚拟 GPU 助力运行计算密集程度极高的服务器工作负载

虚拟化与 AI、深度学习和数据科学相关的计算

借助新款 NVIDIA 数据中心 GPU(包括 NVIDIA A100 Tensor 核心 GPU),NVIDIA 虚拟计算服务器 (vCS) 可助力数据中心加速服务器虚拟化,以便计算密集型工作负载 (例如人工智能深度学习数据科学)可以在虚拟机 (VM) 中运行。

特性

GPU 共享

GPU 共享

NVIDIA vGPU 技术可以实现 GPU 共享(部分共享)。它能让多个 VM 共享一个 GPU,使需要 GPU 加速的较轻工作负载也能更大限度地利用 GPU。

GPU 聚合

GPU 聚合

借助 GPU 聚合技术,VM 可以访问多个 GPU,这是运行计算密集型工作负载通常需要的。vCS 支持多个 vGPU 和对等计算。在多个 vGPU 的情况下,GPU 并不直接互连;在对等计算的情况下,GPU 通过 NVLink 互连以提供更高带宽。

管理和监控

管理和监控

vCS 支持应用级、来宾级和主机级监控。此外,借助前瞻性管理功能,用户还能执行 实时迁移、暂停和恢复操作,以及创建阈值以呈现会影响用户体验的消费趋势 – 这一切均可通过 vGPU 管理 SDK 实现。

NGC

NGC

NVIDIA GPU Cloud (NGC) 是针对 GPU 优化的软件中心,可简化 深度学习、机器学习和高性能计算的工作流程,而且现在通过 NVIDIA vCS 支持虚拟化环境。

对等计算

对等计算

NVIDIA® NVLink 是一种高速的 GPU 到 GPU 直接互连协议,可为多 GPU 系统配置提供更高的带宽、更多的链路和更强的可扩展性 – 现在可通过 NVIDIA 虚拟 GPU (vGPU) 虚拟地支持此协议。

ECC 和页面引退

ECC 和页面引退

纠错码 (ECC) 和页面引退技术可为易受数据损坏影响的计算应用提供更高可靠性。ECC 和页面引退在大型集群计算环境中尤为重要,因为其中的 GPU 需处理非常大的数据集和/或长时间运行应用。

多实例 GPU (MIG)

多实例 GPU (MIG)

多实例 GPU (MIG) 是一项革命性技术,可扩展数据中心的功能,使每个 NVIDIA A100 Tensor 核心 GPU 能够分成多达七个实例,这些实例在硬件级别充分隔离并受到保护,且拥有自己的高带宽显存、缓存和计算核心。借助 vCS 软件,VM 可在每个 MIG 实例上运行,以便组织能够充分利用基于管理程序的服务器虚拟化的管理、监控和操作优势。

GPUDirect

GPUDirect

GPUDirect® RDMA(远程直接显存访问)可让网络设备直接访问 GPU 显存,并且绕过 CPU 主机内存,降低 GPU 到 GPU 的通信延迟和完全分流 CPU 负载。

NVIDIA vCS GPU 推荐

  NVIDIA A100¹ NVIDIA V100S NVIDIA A40 NVIDIA RTX 8000 NVIDIA RTX 6000 NVIDIA T4
显存 40 GB HBM2 32 GB HBM2 48 GB GDDR6 48 GB GDDR6 24 GB GDDR6 16 GB GDDR6
FP 32 峰值 19.5 TFLOPS 16.4 TFLOPS 38.1 TFLOPS 14.9 TFLOPS 14.9 TFLOPS 8.1 TFLOPS
FP 64 峰值 9.7 TFLOPS 8.2 TFLOPS - - - -
NVLink:每个 VM 的 GPU 数量 多达 8 多达 8 2 2 2 -
ECC 和页面引退
每个 VM 的多 vGPU 配置1 多达 16 个 多达 16 个 多达 16 个 多达 16 个 多达 16 个 多达 16 个

Virtualization Partners

常见问题解答

详细了解 NVIDIA 虚拟 GPU 软件

查看产品版本说明和第三方软件产品支持。