当今的 AI 模型需要应对精准对话式 AI 和深度推荐系统等新型挑战,这促使其复杂度不断呈爆炸式增长。Megatron 一类的对话式 AI 模型在复杂度和规模上比 ResNet-50 等图像分类模型高出数百倍。在 FP32 精度下训练这些大型模型可能需要数天甚至数周时间。利用原生框架中的直接支持,精度可以自动降低到 TF32 和 FP16 等级别,从而大幅缩短从训练到收敛的时间,同时保持准确性。
NVIDIA 凭借 Tensor Core 在 MLPerf 0.6(首个 AI 行业级训练基准测试)中斩获佳绩。