在高性能计算、数据科学、生物信息学和深度学习方面的计算密集型 CUDA C++ 应用,可以通过使用多个GPU来加速,这可以增加吞吐量和(或)减少总体运行时间。当计算和内存传输并发重叠时,计算可以扩展至多个GPU 而不增加内存传输的开销。对于拥有多GPU服务器的组织,无论是在云上还是在NVIDIA DGX系统上,这些技术使您能够通过GPU 加速应用程序,以实现最高性能。本课程所讲授的单节点多GPU技术,对于未来将应用扩展至多个节点至关重要。

本课程包含如何编写CUDA C++ 应用程序,正确且有效地使用单一节点中的所有 GPU ,实现大幅提升应用程序性能,发挥多 GPU 系统的最佳经济效益。

 

学习目标

完成本课程后,您将能够了解:

> 使用并发 CUDA 流来使内存传输与GPU 计算重叠执行。

> 将工作负载扩展至多 GPU,充分利用单节点上所有可用 GPU。

> 在多 GPU 上使用数据拷贝与计算的重叠执行。

> 使用 NVIDIA Nsight Systems Visual Profiler 观察所学技术的改进效果和影响。

下载课程大纲 (PDF 243 KB)

课程大纲

介绍
(15 分钟)
  • 讲师介绍
  • 登录课程
使用 JupyterLab
(15 分钟)
  • 熟悉 GPU 加速的交互式JupyterLab环境
应用概览
(15 分钟)
  • 从一个单 GPU 的 CUDA C++ 应用程序开始
  • 使用 Nsight System 观察单 GPU 的 CUDA C++ 应用性能
学习 CUDA 流
(90 分钟)
  • 学习管理并发CUDA流行为的规则
  • 使用多个CUDA流执行并发的“主机到设备”和“设备到主机”内存传输
  • 利用多个 CUDA 流启动 GPU 内核
  • 使用 Nsight System Visual Profiler观察多个流
休息 (60 分钟)
使用 CUDA 流进行复制/计算的重叠执行
(90 分钟)
  • 学习有效执行复制/计算的重叠执行的核心概念
  • 探索在应用程序中灵活使用复制/计算重叠执行的可靠的索引策略
  • 重构单 GPU CUDA C++ 应用程序以实现复制/计算的重叠执行
  • 在 Nsight Systems Visual Profiler中查看复制/计算的重叠执行
在多 GPU 上使用 CUDA C++
(60 分钟)
  • 学习用 CUDA C++ 在单节点上有效使用多 GPU的核心概念
  • 探索为在应用程序中灵活使用多个 GPU 的可靠的索引策略
  • 重构单 GPU 上的 CUDA C++ 应用程序以利用多个GPU
  • 在 Nsight Systems Visual Profiler中查看多GPU的使用情况
休息 (15 分钟)
在多 GPU 上进行复制 /计算的重叠执行
(60 分钟)
  • 学习在多 GPU 上有效执行复制/计算的重叠执行的核心概念
  • 探索为在多GPU 上灵活使用复制/计算的重叠执行的可靠的索引策略
  • 重构单 GPU 上的 CUDA C++ 应用程序,以在多 GPU上执行复制/ 计算的重叠执行
  • 观察在多 GPU 上进行复制/计算的重叠执行的性能优势
  • 在 Nsight Systems Visual Profiler 中查看多 GPU 上的复制/ 计算的重叠执行
学习评估 (30 分钟)
  • 完成测试并获取证书
总结
(30 分钟)
  • 回顾所学的关键内容
  • 了解如何从 DLI 基础环境容器构建自有的训练环境
  • 填写调查表
 

培训详情

课程时长:8 学时

价格:

> 公开课:每人 3500 元(提供发票)

> 企业专属培训:联系我们,微信添加 NVIDIALearn

预备知识:

> 具有专业 CUDA C/ C++ 编程经验,包括使用NVCC 编译器、内核启动、网格跨步循环、主机到设备及设备到主机的内存传输,和CUDA错误处理。

> 熟悉Linux命令行。

>具有用 Makefiles 编译 C/ C++ 代码的经验。

建议学习如下课程,以具备本课程所需预备知识:

> DLI 课程《加速计算基础 —— CUDA C/C++》

Ubuntu Command Line for Beginners (1~5 章节)

Makefile Tutorial (至“Simple Examples” 章节)

工具、库和框架:CUDA C++, NVCC, Nsight Systems

课程测评问题类型:基于代码技能评测,评估在单节点上正确利用多 GPU的能力,包括如何使用复制/计算重叠执行。

培训证书:成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。

学习此课程的硬件要求:您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。

课程语言:中文

学习更多 DLI 课程

加速计算基础——CUDA C/C++

加速计算基础——CUDA Python

加速计算高阶 —— 将 CUDA C++ 应用扩展至多节点 GPU

如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的信心之选。

遇到问题 ?