在高性能计算、数据科学、生物信息学和深度学习方面的计算密集型 CUDA C++ 应用,可以通过使用多个GPU来加速,这可以增加吞吐量和(或)减少总体运行时间。当计算和内存传输并发重叠时,计算可以扩展至多个GPU 而不增加内存传输的开销。对于拥有多GPU服务器的组织,无论是在云上还是在NVIDIA DGX系统上,这些技术使您能够通过GPU 加速应用程序,以实现最高性能。本课程所讲授的单节点多GPU技术,对于未来将应用扩展至多个节点至关重要。
本课程包含如何编写CUDA C++ 应用程序,正确且有效地使用单一节点中的所有 GPU ,实现大幅提升应用程序性能,发挥多 GPU 系统的最佳经济效益。
完成本课程后,您将能够了解:
> 使用并发 CUDA 流来使内存传输与GPU 计算重叠执行。
> 将工作负载扩展至多 GPU,充分利用单节点上所有可用 GPU。
> 在多 GPU 上使用数据拷贝与计算的重叠执行。
> 使用 NVIDIA Nsight Systems Visual Profiler 观察所学技术的改进效果和影响。
下载课程大纲 (PDF 243 KB)
课程时长:8 学时
价格:
> 公开课:每人 3500 元(提供发票)
> 企业专属培训:联系我们,微信添加 NVIDIALearn
预备知识:
> 具有专业 CUDA C/ C++ 编程经验,包括使用NVCC 编译器、内核启动、网格跨步循环、主机到设备及设备到主机的内存传输,和CUDA错误处理。
> 熟悉Linux命令行。
>具有用 Makefiles 编译 C/ C++ 代码的经验。
建议学习如下课程,以具备本课程所需预备知识:
> DLI 课程《加速计算基础 —— CUDA C/C++》
> Ubuntu Command Line for Beginners (1~5 章节)
> Makefile Tutorial (至“Simple Examples” 章节)
工具、库和框架:CUDA C++, NVCC, Nsight Systems
课程测评问题类型:基于代码技能评测,评估在单节点上正确利用多 GPU的能力,包括如何使用复制/计算重叠执行。
培训证书:成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。
学习此课程的硬件要求:您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。
课程语言:中文
8 学时 | 中文 | 收费培训 | C/C++, CUDA®
有培训证书
8 学时 | 中文 | 收费培训 | CUDA, Python, Numba, NumPy
8 学时 | 中文 | 收费培训 | CUDA, MPI, NVSHMEM
如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的信心之选。
NVIDIA 深度学习培训中心 (DLI) 培训证书可以证明在相关领域的能力,助力您的职业发展。部分在线自主培训和全部讲师指导的培训班课程,提供此证书。
在 LinkedIn 上张贴 DLI 证书,可以突显您的新技能。这样做有机会增加对招聘者的吸引力,从而推动您的职业生涯发展。参考这里的操作步骤来更新您的简历,将证书添加到“证书”一项中。