NVIDIA Ampere 架构

性能出色和高可扩展性数据中心的核心

现代数据中心 AI 和 HPC 的核心

科学家、研究人员和工程师堪称是当代的达芬奇和爱因斯坦,他们正在利用 AI 和高性能计算 (HPC),竭力解决重大的科学、行业和大数据挑战。NVIDIA Ampere 架构可在各种规模上提供强大的加速能力,实现加速计算的下一次巨大飞跃,让这些创新者能够成就其终生事业。

突破性创新

NVIDIA Ampere 由540亿个晶体管组成,是有史以来最大的7纳米芯片,具有六项突破性的关键创新。

第三代 Tensor Core

第三代 Tensor Core

NVIDIA Volta™ 架构中率先采用的 NVIDIA Tensor Core 技术助力 AI 实现了大幅加速,将训练时间从数周缩短至几小时,并大幅度加快推理。NVIDIA Ampere 架构以这些创新为基础,通过引入新的精度 :Tensor 浮点运算 (TF32) 和 FP64 加速和简化 AI 技术采用,并将 Tensor Core 的强大功能扩展至 HPC。

TF32 的运行方式与 FP32 相同,同时将 AI 实现了高达 10 倍的加速,并且无需更改任何代码。使用 NVIDIA 自动混合精度,研究人员只需增加一行代码就能将性能提高 2 倍。凭借对 bfloat16、INT8 和 INT4 的支持,A100 中的 Tensor Core 可为 AI 训练和推理创建一个高度通用的加速器。通过将 Tensor Core 的强大功能引入 HPC,A100 还能实现经过IEEE认证的 FP64 精度矩阵运算。

多实例 GPU (MIG)

所有 AI 和 HPC 应用程序都可以从加速中受益,但并非每个应用程序都需要 A100 的全部性能。借助 MIG,每个 A100 可以划分成多达七个 GPU 实例,在硬件级别上完全安全、彼此隔离,并拥有自己的高带宽显存。这样,管理员能够为每项工作提供适当规模的 GPU 资源,从而优化利用率并扩大对每个用户和团队的访问权限。

多实例 GPU (MIG)

结构化稀疏

现代 AI 网络非常庞大,且规模仍然在不断加大,拥有数百万个(某些情况下可达数十亿个)参数。并非所有参数都可用于准确的预测和推理,有些参数可以转换为零以使模型“稀疏”,而不会降低准确性。A100 中的 Tensor Core 可为稀疏模型提供高达 2 倍的性能提升。虽然稀疏化功能对 AI 推理更为有益,但它也可用于改善模型训练的性能。

结构化稀疏
更智能、更快的内存

更智能、更快的显存

A100 正在为数据中心提供海量计算能力。为了保持这些计算引擎得到充分利用,它具有领先业界的每秒 1.5TB 的显存带宽,比上一代高出 67%。此外,A100 的片上存储空间更大,包括 40MB 的 2 级缓存(比上一代大 7 倍),从而最大限度地提高计算性能。

边缘端加速

NVIDIA EGX™ A100 结合了 NVIDIA Ampere 架构和 NVIDIA Mellanox 的 ConnectX-6 Dx SmartNIC,带来了前所未有的计算和网络加速功能,可以处理边缘端产生的大量数据。Mellanox SmartNIC 具有安全分流功能,能够以高达 200 Gb/s 的线速进行解密,而 GPUDirect™ 可将视频帧直接传输到 GPU 显存以进行 AI 处理。 借助EGX A100,企业可以更安全、更有效地加速边缘 AI 的部署

Converged Acceleration at the Edge

为每种工作负载提速

NVIDIA A100 Tensor Core GPU 为 AI、数据分析和 HPC 提供了前所未有的加速和灵活性,以应对最棘手的计算挑战。