讲师指导的培训班
构建基于 DOCA 的拥塞控制
算法优化 AI 工作负载

NVIDIA Spectrum-X 平台专为加速生成式 AI 云而设计,旨在实现最佳性能和可扩展性。本课程将指导学员在 NVIDIA Spectrum-X 平台上利用 NVIDIA BlueField-3 DPU 实现自定义拥塞控制算法,优化多个大型语言模型训练的性能,并有效隔离各个任务之间的干扰。结合理论讲解与实际操作,学员将深入理解 RDMA 技术和拥塞控制的基本原理,并通过使用 DOCA PCC SDK,开发和优化拥塞控制算法。课程还将提供相关的调试工具和技巧,帮助学员提升数据中心的运行效率。

 

学习目标
 

参加本次培训,您将学到:
  • RDMA 基本实现
  • 流量控制和拥塞控制的基础知识
  • 掌握 NVIDIA DOCA PCC SDK 开发平台,能够快速开发自己的拥塞算法
  • 掌握拥塞算法调试和 debug 方法

下载课程大纲 (PDF 388 KB)

课程大纲

议题 说明
课程介绍
(15 分钟)
  • 讲师介绍
  • 登录 DLI 学习平台
拥塞算法原理及实现
(60 分钟)

    了解拥塞控制以及主流拥塞控制算法:

  • 了解流量控制和拥塞控制的理论基础
  • 学习基于 ECN 的 DCQCN 实现原理
  • 学习基于 RTT 的 Timely 实现原理
休息 (10 分钟)
BlueField-3 和 DOCA 介绍
(60 分钟)

    了解 NVIDIA BlueField-3 产品、DPA 以及 DOCA:

  • 介绍 NVIDIA BlueField-3 DPU 产品特点
  • 介绍 DOCA 的软件框架和组件
休息 (60 分钟)
DOCA PCC 介绍
(80 分钟)

    了解 DOCA PCC 的 实现以及应用开发流程,学习如何安装和运行 DOCA PCC:

  • 介绍 DOC PCC SDK 的组件以及实现
  • 了解 DOCA PCC 的 APIs 以及特性
  • 了解如何安装 DOCA PCC
  • 学习如何编译和运行 DOCA PCC
休息 (10 分钟)
PCC 实现原理和算法实现
(120 分钟)

    学习如何开发拥塞控制算法:

  • 探讨 PCC 实现原理
  • 学习 DOCA PCC CC event APIs,以及关键数据结构
  • 学习算法初始化和事件处理函数
  • 学员实现部分算法逻辑,并在 DPU 环境上打流并调试
休息 (10 分钟)
Debug 技术介绍,算法可调参数介绍
(30 分钟)

    学习如何调试和 debug 拥塞控制算法:

  • 介绍 Debug tracer 的使用方法
  • 介绍 core-dump 的使用步骤
  • 介绍硬件相关的 counter 查询
  • 学习如何获取和更改算法可调参数
  • 学习如何获取算法的 debug counter
总结
(30 分钟)
  • 回顾所学关键内容
  • 完成测试并获取证书
  • 填写调查表
下一步 学习更多 DLI 相关课程:
 

培训详情

课程时长:8 小时,课后 6 个月内可以继续访问课件(实验资源用量有限额)

课程模式:讲师授课,及每位学员使用一张 BlueFiled-3 卡实践练习

价格:

  • AI 培训班:每人 3500 元(提供发票)
  • 企业专属培训:联系我们,微信添加 NVIDIALearn

预备知识:

使用的工具、库和框架:C, DOCA

学员评测方式:正确回答课后测试题目

培训证书:成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明

学习此课程的硬件要求:您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端实验环境的 ssh 访问权限

课程语言:中文

如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的信心之选。

学习更多 DLI 课程

生成式 AI 入门 (免费课程)

深度学习基础 —— 理论与实践入门

构建基于扩散模型的生成式 AI 应用

加速计算基础 —— CUDA C/C++

加速计算基础 —— CUDA Python