社区课程

英伟达开发者社区免费课程主要提供 NVIDIA GPU 编程相关的学习素材,包括课程简要,课程视频,及课程所需 PPT。

按照以下课程学习,您将了解到相关算力增强的专业知识,包括:CUDA 编程的基础知识以及 AI 计算加速的工具使用。

  • CUDA 并行计算编程基础

  • CUDA 优化 - 共享内存以及常量内存

  • CUDA 优化-多流执行

  • CUDA 优化- cuBLAS 的使用

  • GPU 人工智能服务器的搭建

  • NVIDIA DIGITS 及其在迁移学习中的应用

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

  • 使用 TensorRT 加速推理结果计算

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream:

  • NVIDIA 自动驾驶开发套件 -- 借助 DriveWorks 启用定制传感器

  • 借助 CUDA 通过自定义图层扩展 NVIDIA TensorRT 随需应变

  • 借助 NVIDIA DriveWorks 开发自动驾驶汽车摄像头图像处理

  • TensoRT in Jetbot

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

  • NVIDIA TAO 工具包的部署和使用

  • Style-Gan 的架构与实现

  • NVIDIA Jetson NANO 十行代码搞定目标检测

  • 基于 Python 的口罩检测模块代码解析

    受今年新冠疫情的影响,快速的口罩检测成为了目前一个比较火热的话题。在不同的场景下,快速训练并部署一个属于自己的口罩检测模型成为了搭建高效防疫机制的关键。

    本次课程将介绍如何利用 NVIDIA TAO 工具包,在 Python 的环境下快速训练并部署一个口罩监测模型。并会详细介绍,如何利用该工具,对模型进行剪枝,评估并优化。TAO 工具包 内包含了 95 个预训练模型,6 个常用网络模型,用户不用从头开始训练,极大地减轻了准备样本的工作量,让开发者专注于模型的精度提升。

    TAO 工具包 是一个基于 Python 的工具包,它使开发人员能够利用 NVIDIA 预先训练的模型,并为开发人员提供一系列的工具,使流行的网络架构适应他们自己的数据,并且能够训练、调整、修剪和导出模型以进行部署。它还拥有简单的接口和抽象 API,提高了深度学习训练工作流的效率。

    本次在线研讨会主要面向有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • NVIDIA TAO 工具包 2.0 的最新特性
    • 利用 nvidia-docker 快速部署 NVIDIA TAO 工具包
    • 利用 NVIDIA TAO 工具包 快速搭建深度学习训练环境
    • 利用 TAO 工具包 快速训练部署口罩检测模型

    下载 PPT

  • CUDA Python - 存储管理以及卷积计算

    CUDA 编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。Numba 是一个支持 Python CUDA 的编译器,它为 Python 开发人员提供了一个简单的进入 GPU 加速计算的入口,用最简单的方式加速您的应用。

    本次在线研讨会主要针对有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • 深入了解 CUDA 存储模式
    • CUDA Python 深入的编程技巧
    • 利用 CUDA Python 处理卷积操作

    下载 PPT

  • CUDA Python - 编程基础以及图像处理

    CUDA 编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。Numba 是一个支持 Python CUDA 的编译器,它为 Python 开发人员提供了一个简单的进入 GPU 加速计算的入口,用最简单的方式加速您的应用。

    本次在线研讨会主要针对有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • 深入了解 CUDA 存储模式
    • CUDA Python 深入的编程技巧
    • 利用 CUDA Python 处理卷积操作

    下载 PPT

  • 利用 NVIDIA TAO 工具包加速 Jetbot 智能小车的推理引擎部署

    NVIDIA TAO 工具包是一个基于python的工具包,它使开发人员能够使用NVIDIA预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出模型以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率。

    本次在线研讨会主要针对人工智能和深度学习的开发者,介绍如何快速部署一个Jetbot智能小车,并将NVIDIA TAO 工具包构建的引擎部署在Jetbot上。

    通过本次在线研讨会,您可以获得以下内容:

    • 利用NVIDIA TAO 工具包构建SSD目标检测网络的推理引擎
    • 将推理引擎迁移到以NVIDIA Jetson NANO为核心的Jetbot智能小车上
    • 在Jetbot智能小车上部署推理引擎

    下载 PPT

  • CUDA 并行计算编程基础

    CUDA编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。通过这堂课,您将学会:

    • 利用CUDA编程模型实现矩阵乘法
    • 共享内存基础
    • 利用共享内存加速矩阵乘法

     

    受众目标:针对 GPU 平台程序有开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : wdhz)

      链接: (提取码 : op40)

  • CUDA 优化 - 共享内存以及常量内存

    本次课程将深入的介绍如何利用共享内存和常量内存来加速GPU程序,通过本次课程,您将学会

    • 深层次的共享内存的知识
    • 常量内存的概念
    • 利用常量内存和共享内存加速 GPU 程序

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : hqjp)

  • CUDA 优化-多流执行

    多流执行是 CUDA 编程模型中的重要加速手段,本次课程将深入的介绍如何利用多流执行来加速 GPU 程序,通过本次课程,您将学会:

    • GPU 流的基本概念
    • 多流执行的应用
    • GPU 程序的性能分析

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gf02)

  • CUDA 优化- cuBLAS 的使用

    NVIDIA cuBLAS 库是标准基本线性代数子程序( Basic Linear Algebra Subroutines)的 GPU 加速库. 使用cuBLAS API,您可以通过将密集型计算部署到单个 GPU 来加速应用程序,或者有效地扩展和分配到多GPU配置的服务器上,通过本次课程,您将学到

    • cuBLAS 基础介绍
    • cuBLAS 的应用
    • cuBLAS 的实例展示

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : k1g1)

  • GPU 人工智能服务器的搭建

    在这门课中,您将学会如何从头开始配置一台 GPU AI 服务器,我们会结合硬件系统和软件系统介绍完整的解决方案。内容包括:

    • 硬件平台系统的搭建
    • GPU 的性能特点
    • 当前已经成熟的解决方案
    • 软件系统的安装配置
    • CUDA,cuDNN 以及 NVIDIA DeepLearning SDK 的介绍

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : krf5)

  • NVIDIA DIGITS 及其在迁移学习中的应用

    • DIGITS 诞生背景及功能简介
    • DIGITS 的训练数据集导入
    • DIGITS 的基本模型训练操作:图片分类
    • DIGITS 用于目标检测
    • DIGITS 用于图像分割
    • DIGITS 迁移学习的使用
    • DIGITS Plugin 的使用

     

    受众目标:针对有图像处理和机器视觉知识背景的人员

    时长: 1.5 小时

      PPT 下载链接 (提取码 : 2abe)

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

    此课程将会介绍如何利用 TensorRT 加速 YOLO 目标检测,课程将会着重介绍编程方法。本次课程还会涉及到 TensorRT 中数据类型,流处理,多精度推理等细节的展示

    • TensorRT 简介
    • TensorRT 优化 YOLO 的实战编程
    • TensorRT 实例展示

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 8x5w)

  • 使用 TensorRT 加速推理结果计算

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT 6.0 的最新特性,以及如何利用CUDA和cuDNN创建新的组件。

    • TensorRT 6.0的性能特点
    • TensorRT Plugin的实现方法
    • TensorRT Plugin的开发方法细节
    • cuDNN 的使用技巧

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 0taa)

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT的最新特性,以及 Deepstream 的使用方法。

    • TensorRT 的性能特点
    • TensorRT 的优化原理
    • TensorRT 的开发方法细节
    • TensorRT 和 TensorFlow 的集成开发方法
    • Deepstream 的性能特点以及开发使用

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : c1id)

  • TensoRT in Jetbot

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • 智能小车设计基础知识
    • 数据收集及本地模型训练
    • 利用TensorRT优化及部署网络

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : k2g9)

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • Jetson NANO & Jetracer
    • JetRacer 体系结构
    • 利用TensorRT加速推理过程

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : nz5p)

  • NVIDIA TAO 工具包的部署和使用

    NVIDIA TAO 工具包 是一个基于 python 的工具包,它使开发人员能够使用 NVIDIA 预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率

    • 搭建和部署NVIDIA TAO 工具包
    • 利用NVIDIA TAO 工具包调用预训练网络模型
    • 利用NVIDIA TAO 工具包训练模型
    • 将训练好的模型导出并部署加速

     

    受众目标:针对人工智能和深度学习的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gqh3)

  • Style-Gan 的架构与实现

    A Style-Based Generator Architecture for Generative Adversarial Networks 是 NVIDIA 在 2018 年发布的一个新的生成对抗网络方法。StyleGAN是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。此课程将会介绍 Style-Gan 的基本框架和原理,并具体介绍模型的训练,以及训练好模型的应用,包括:

    • StyleGan 介绍、架构特点,以及与传统的 Gan 之间的区别
    • StyleGan 效果和应用
    • StyleGan 模型训练以及实际代码中,利用 StyleGan 模型生成图片

     

    受众目标:针对有模型训练知识背景的技术人员

    时长: 1 小时

      PPT 下载链接 (提取码 : pms7)

  • NVIDIA Jetson NANO 十行代码搞定目标检测

    本视频介绍了如何在 NVIDIA Jetson NANO 上快速的搭建部署一个目标检测任务,并调用安装好的工具包利用十行代码完成目标检测

    • 下载,编译和安装 NVIDIA Jetson Inference项目
    • 下载预训练模型
    • 构建推理引擎
    • 完成代码

     

    受众目标:有深度学习经验的开发者

    时长: 40 分钟

  • 使用 TensorRT 加速推理结果计算 -- 利用 CUDA 和 cuDNN 创建组件

    NVIDIA TensorRT 是一个高性能深度学习推理平台。它包含深度学习推理优化器和提供低延迟和高通量的深度学习推理应用程序的运行时。使用 TensorRT,您可以在主流框架下优化神经网络训练模型, 在保证高精度输出结果的同时校准低精度数据类型,并最终部署到超大型数据中心,嵌入式,或者汽车产品平台。

    本次在线研讨会针对有模型训练知识背景的技术人员,将会介绍 TensorRT 7.0 的最新特性,以及如何利用 CUDA 和 cuDNN 创建新的组件。

    通过本次在线研讨会,您可以获得以下内容:

    • TensorRT 7.0 的性能特点
    • TensorRT Plugin 的实现方法
    • TensorRT Plugin 的开发方法细节
    • cuDNN 的使用技巧

      下载PPT

  • 利用 NVIDIA TAO 工具包和 DeepStream 实现实时目标检测

    此在线研讨会主要针对人工智能和深度学习的开发者,通过本次在线研讨会,您可以获得以下内容:

    • 搭建和部署 NVIDIA TAO 工具包
    • 利用 NVIDIA TAO 工具包调用预训练网络模型
    • 利用 NVIDIA Deepstream 调用训练好的模型
    • 结合 Deepstrea m实现实施目标检测

      下载PPT

  • 利用 NVIDIA TensorRT 部署 TAO 工具包构建的引擎

    NVIDIA TAO 工具包是一个基于python的工具包,它使开发人员能够使用NVIDIA预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出模型以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率。

    本次在线研讨会主要针对人工智能和深度学习的开发者,介绍最新的TensorRT 7.0的特性,并利用NVIDIA TAO 工具包构建的引擎,加速目标检测任务。通过本次在线研讨会,您可以获得以下内容:

    1. TensorRT 7.0的最新特性
    2. 利用NVIDIA TAO 工具包调用预训练网络模型
    3. 利用TensorRT 7.0部署高速目标检测引擎

      下载PPT

  • FastTransformer 2.0的原理与应用

    最近一、两年来,transformer layer成为NLP里面非常热门的一个深度学习网络架构。在FasterTransformer 1.0中,提供了以BERT transformer layer为模版、经过高度优化之后的 transformer layer,让用户能够降低使用transformer编码 (encode) 的时延。
    然而,在编码-解码 (encoder-decoder) 的流程当中,占据大部份时间的是解码。因此,FasterTransformer 2.0提供针对解码器进行高度优化的transformer layer。同时,还提供了优化过后的整个翻译流程,满足想要在翻译场景中大幅降低时延的用户们。通过本次的在线研讨会,您可以获得以下的内容:

    • FasterTransformer 2.0 新增加的功能,包括decoder和整个翻译流程 – decoding - 的优化
    • 我们如何针对decoder和decoding进行优化
    • 如何使用decoder和decoding
    • Decoder和decoding能够带来什么样的加速效果

    (这一个Subject下没有下载PPT,不用添加这一入口即可)

  • 如何玩转安培架构的 MIG(多实例GPU)及其应用案例分享

    2020年5月14日时,NVIDIA 发表了最新的 GPU 架构: 安培,以及基于安培架构的最新的 GPU: A100。安培提供了许多新的特性,MIG 是其中一项非常重要的新特性。MIG,全名是 Multi-Instance GPU,最多可以把 A100 GPU 切成七个 GPU 实例。每一个 GPU 实例都有各自的 SMs 和内存系统。因此,MIG 能够保证各个使用者的工作的时延和吞吐量是可预期的、提供可预期的服务品质,并且提高 GPU 的使用率。

    对于云端服务的供应商,有几点非常重要的需求,包括服务品质的保证,基于安全考量而将使用者进行分离,以及尽可能的提高 GPU 的使用率。而 MIG 能够在不需要额外的工作下,满足上述的需求。透过硬件上分离 SM 和内存系统,MIG 能够保证服务的品质以及使用者的安全性。而透过将 GPU 切分成多个实例,能够显著提升 GPU 的使用率。

    在这次的在线研讨会中,您可以获得以下的内容:

    • MIG 的介绍,包括 MIG 如何运作,为什么我们需要 MIG 等
    • 如何使用 MIG
    • 案例分析: 在 MIG 上使用 Fastertransformer

      下载PPT

  • 看搭载了第三代Tensor Core的A100如何实现吞吐性能翻倍

    2020 年 5 月 14 日, NVIDIA 发布了最新的 GPU 架构:安培,以及基于安培架构最新的 GPU A100。在安培架构中新增了功能强大的第三代 Tensor Core 单元。

    相较于 V100, A100 上搭载的第三代 Tensor Core 增加了对 DL 和 HPC 数据类型的全面支持,提高了各精度的运算吞吐能力,同时新增稀疏运算特性,进一步实现了吞吐性能翻倍。

    第三代 Tensor Core 新特性如下:

    • 新增了 Tensor Float-32(TF32) 数据类型操作,提供了对 FP32 数据的加速能力,相较于 V100 FP32 的 FFMA 拥有 10 倍加速性能,相较于 A100 FP32 的 FFMA 拥有 8 倍加速性能。
    • 新增了 Bfloat16(BF16) 数据类型操作,与 FP16 拥有相同的吞吐性能。相较于 V100,A100 GPU 获得 2.5 倍 TOPS 提升,单个 SM 上获得 2 倍性能提升。
    • 相较于 V100,A100 新增了 INT8,INT4,INT1 整数数据类型操作,进一步加速 DL 推理。
    • 新增加了 FP64 数据类型操作,相较于 V100,FP64 运算性能提升 2.5 倍。
    • TF32,BF16,FP16,INT8,INT4 均支持稀疏特性,运算吞吐能力可再获得 2 倍提升。

    在这次的在线研讨会中,您可以获得以下的内容:

    • 第三代 Tensor Core 介绍,Tensor Core 作用与原理等
    • 如何在现有的函数库与 Kernel 中使用 Tensor Core
    • 案例分析:在 GEMM 中,Tensor Core 的使用与分析

      下载PPT

  • 基于 Python 的行人统计应用代码解析