社区课程

英伟达开发者社区免费课程主要提供 NVIDIA GPU 编程相关的学习素材,包括课程简要,课程视

频,及课程所需 PPT。按照以下课程学习,您将了解到相关算力增强的专业知识,包括:CUDA 编

程的基础知识以及 AI 计算加速的工具使用。

  • CUDA 并行计算编程基础

  • CUDA 优化 - 共享内存以及常量内存

  • CUDA 优化-多流执行

  • CUDA 优化- cuBLAS 的使用

  • GPU 人工智能服务器的搭建

  • NVIDIA DIGITS 及其在迁移学习中的应用

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

  • 使用 TensorRT 加速推理结果计算

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream:

  • NVIDIA 自动驾驶开发套件 -- 借助 DriveWorks 启用定制传感器

  • 借助 CUDA 通过自定义图层扩展 NVIDIA TensorRT 随需应变

  • 借助 NVIDIA DriveWorks 开发自动驾驶汽车摄像头图像处理

  • TensoRT in Jetbot

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

  • NVIDIA 迁移式学习工具包的部署和使用

  • Style-Gan 的架构与实现

  • NVIDIA Jetson NANO 十行代码搞定目标检测

  • CUDA 并行计算编程基础

    CUDA编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。通过这堂课,您将学会:

    • 利用CUDA编程模型实现矩阵乘法
    • 共享内存基础
    • 利用共享内存加速矩阵乘法

     

    受众目标:针对 GPU 平台程序有开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : wdhz)

      链接: (提取码 : op40)

  • CUDA 优化 - 共享内存以及常量内存

    本次课程将深入的介绍如何利用共享内存和常量内存来加速GPU程序,通过本次课程,您将学会

    • 深层次的共享内存的知识
    • 常量内存的概念
    • 利用常量内存和共享内存加速 GPU 程序

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : hqjp)

  • CUDA 优化-多流执行

    多流执行是 CUDA 编程模型中的重要加速手段,本次课程将深入的介绍如何利用多流执行来加速 GPU 程序,通过本次课程,您将学会:

    • GPU 流的基本概念
    • 多流执行的应用
    • GPU 程序的性能分析

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gf02)

  • CUDA 优化- cuBLAS 的使用

    NVIDIA cuBLAS 库是标准基本线性代数子程序( Basic Linear Algebra Subroutines)的 GPU 加速库. 使用cuBLAS API,您可以通过将密集型计算部署到单个 GPU 来加速应用程序,或者有效地扩展和分配到多GPU配置的服务器上,通过本次课程,您将学到

    • cuBLAS 基础介绍
    • cuBLAS 的应用
    • cuBLAS 的实例展示

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : k1g1)

  • GPU 人工智能服务器的搭建

    在这门课中,您将学会如何从头开始配置一台 GPU AI 服务器,我们会结合硬件系统和软件系统介绍完整的解决方案。内容包括:

    • 硬件平台系统的搭建
    • GPU 的性能特点
    • 当前已经成熟的解决方案
    • 软件系统的安装配置
    • CUDA,cuDNN 以及 NVIDIA DeepLearning SDK 的介绍

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : krf5)

  • NVIDIA DIGITS 及其在迁移学习中的应用

    • DIGITS 诞生背景及功能简介
    • DIGITS 的训练数据集导入
    • DIGITS 的基本模型训练操作:图片分类
    • DIGITS 用于目标检测
    • DIGITS 用于图像分割
    • DIGITS 迁移学习的使用
    • DIGITS Plugin 的使用

     

    受众目标:针对有图像处理和机器视觉知识背景的人员

    时长: 1.5 小时

      PPT 下载链接 (提取码 : 2abe)

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

    此课程将会介绍如何利用 TensorRT 加速 YOLO 目标检测,课程将会着重介绍编程方法。本次课程还会涉及到 TensorRT 中数据类型,流处理,多精度推理等细节的展示

    • TensorRT 简介
    • TensorRT 优化 YOLO 的实战编程
    • TensorRT 实例展示

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 8x5w)

  • 使用 TensorRT 加速推理结果计算

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT 6.0 的最新特性,以及如何利用CUDA和cuDNN创建新的组件。

    • TensorRT 6.0的性能特点
    • TensorRT Plugin的实现方法
    • TensorRT Plugin的开发方法细节
    • cuDNN 的使用技巧

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 0taa)

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT的最新特性,以及 Deepstream 的使用方法。

    • TensorRT 的性能特点
    • TensorRT 的优化原理
    • TensorRT 的开发方法细节
    • TensorRT 和 TensorFlow 的集成开发方法
    • Deepstream 的性能特点以及开发使用

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : c1id)

  • NVIDIA 自动驾驶开发套件 -- 借助 DriveWorks 启用定制传感器

    将介绍如何针对不同的传感器类型(如雷达,激光雷达和摄像头)安装及启用传感器插件。这些插件使开发人员可以将新的传感器加到DriveWorks 传感器抽象层(SAL)中,以实现与传感器交流所需的传输和协议层。了解更多如何将新的传感器集成到 DriveWorks 软件开发套件(SDK)中以及关于 NVIDIA DRIVE AGX 的更多信息。

  • 借助 CUDA 通过自定义图层扩展 NVIDIA TensorRT 随需应变

    介绍了 CUDA 并行计算编程模型和 TensorRT 高性能深度学习推理平台。.基于 CUDA 构建的 TensorRT 使开发人员能够导入、校准、生成和部署优化网络。 以及如何使用插件界面通过 TensorRT 运行自定义层,为了最快地实现自定义层,使用相同的 GPU 构建运行优化核心的 CUDA 程序。以及如何通过示例应用程序将 CUDA 核心程序作为 TensorRT 插件的一部分,以用于 DNN 模型的优化。

  • 借助 NVIDIA DriveWorks 开发自动驾驶汽车摄像头图像处理

    自动驾驶汽车依靠摄像头来“看见”周围世界。要实现没有人类驾驶员参与的安全驾驶,自动驾驶汽车必须能够快速准确地处理来自摄像头的图像数据。NVIDIA DriveWorks 软件开发套件(SDK)提供了一个高效模块化的功能库,可用于开发摄像头图像处理软件。NVIDIA DriveWorks强大的图像数据处理能力,为开发者在开发更高级的自动驾驶软件时提供了坚实的基础。

    将会讲解在 NVIDIA DriveWorks 软件开发套件(SDK)上开发摄像头图像处理软件的步骤。借助该平台,开发者们可以无缝添加一系列高性能的功能。本次研讨会的内容还包括 DriveWorks 图像基础,低阶计算机视觉模块,特征追踪以及深度神经网络(DNN)示例。

  • TensoRT in Jetbot

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • 智能小车设计基础知识
    • 数据收集及本地模型训练
    • 利用TensorRT优化及部署网络

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : k2g9)

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • Jetson NANO & Jetracer
    • JetRacer 体系结构
    • 利用TensorRT加速推理过程

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : nz5p)

  • NVIDIA 迁移式学习工具包的部署和使用

    NVIDIA Transfer Learning Toolkit 是一个基于 python 的工具包,它使开发人员能够使用 NVIDIA 预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率

    • 搭建和部署NVIDIA迁移式学习工具包
    • 利用NVIDIA迁移式学习工具包调用预训练网络模型
    • 利用NVIDIA迁移式学习工具包训练模型
    • 将训练好的模型导出并部署加速

     

    受众目标:针对人工智能和深度学习的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gqh3)

  • Style-Gan 的架构与实现

    A Style-Based Generator Architecture for Generative Adversarial Networks 是 NVIDIA 在 2018 年发布的一个新的生成对抗网络方法。StyleGAN是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。此课程将会介绍 Style-Gan 的基本框架和原理,并具体介绍模型的训练,以及训练好模型的应用,包括:

    • StyleGan 介绍、架构特点,以及与传统的 Gan 之间的区别
    • StyleGan 效果和应用
    • StyleGan 模型训练以及实际代码中,利用 StyleGan 模型生成图片

     

    受众目标:针对有模型训练知识背景的技术人员

    时长: 1 小时

      PPT 下载链接 (提取码 : pms7)

  • NVIDIA Jetson NANO 十行代码搞定目标检测

    本视频介绍了如何在 NVIDIA Jetson NANO 上快速的搭建部署一个目标检测任务,并调用安装好的工具包利用十行代码完成目标检测

    • 下载,编译和安装 NVIDIA Jetson Inference项目
    • 下载预训练模型
    • 构建推理引擎
    • 完成代码

     

    受众目标:有深度学习经验的开发者

    时长: 40 分钟