NVIDIA Spectrum-X 平台专为加速生成式 AI 云而设计,旨在实现最佳性能和可扩展性。本课程将指导学员在 NVIDIA Spectrum-X 平台上利用 NVIDIA BlueField-3 DPU 实现自定义拥塞控制算法,优化多个大型语言模型训练的性能,并有效隔离各个任务之间的干扰。结合理论讲解与实际操作,学员将深入理解 RDMA 技术和拥塞控制的基本原理,并通过使用 DOCA PCC SDK,开发和优化拥塞控制算法。课程还将提供相关的调试工具和技巧,帮助学员提升数据中心的运行效率。
学习目标
- RDMA 基本实现
- 流量控制和拥塞控制的基础知识
- 掌握 NVIDIA DOCA PCC SDK 开发平台,能够快速开发自己的拥塞算法
- 掌握拥塞算法调试和 debug 方法
下载课程大纲 (PDF 388 KB)