NVIDIA 企业开发者社区研讨会

NVIDIA 企业开发者社区在线研讨会主要面向GPU开发者,分享NVIDIA GPU 以及开发工具、AI框架或者平台等相关开发技术经验。

在线研讨会是以线上直播的方式呈现,往期研讨会内容已经被收录在此,内容涵盖 CUDA 开发及其他 NVIDIA 开发工具使用分享、AI 计算加速、GPU开发在一些具体应用场景的实现等内容。如果您对以上内容感兴趣,请点击 ”历史在线研讨会” 栏目下相应主题,提交注册信息后观看研讨会回放。

历史在线研讨会

  • CUDA 并行计算编程基础

  • CUDA 优化 - 共享内存以及常量内存

  • CUDA 优化-多流执行

  • CUDA 优化- cuBLAS 的使用

  • GPU 人工智能服务器的搭建

  • NVIDIA DIGITS 及其在迁移学习中的应用

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

  • 使用 TensorRT 加速推理结果计算

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream:

  • NVIDIA 自动驾驶开发套件 -- 借助 DriveWorks 启用定制传感器

  • 借助 CUDA 通过自定义图层扩展 NVIDIA TensorRT 随需应变

  • 借助 NVIDIA DriveWorks 开发自动驾驶汽车摄像头图像处理

  • TensoRT in Jetbot

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

  • NVIDIA TAO 工具包的部署和使用

  • Style-Gan 的架构与实现

  • NVIDIA Jetson NANO 十行代码搞定目标检测

  • NeMo一起构建会说中文的问答机器人

    会话式AI是利用机器学习开发基于语言的应用程序,使人类能够通过语音与设备、机器和计算机进行自然互动。 当您的虚拟助理智能语音助手,在早上叫醒您、在上下班途中询问方向、或者在网上购物时与聊天机器人交流。您可以使用会话人工智能用您正常的声音说话,这个设备就能理解,并找到最好的答案,然后用听起来很自然的声音进行回答。

    NeMo是一个用于构建新型最先进的对话AI模型的工具箱,NeMo有独立的集合用于自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS)模型。   

    本次网络研讨会面向的是会对话AI感兴趣的开发人员。

    通过本次研讨会,您可以获得以下信息:

    • 概述ASR NLP TTS技术在会话人工智能中的应用
    • 使用NeMo构建机器人实现语音转录的“耳朵”
    • 使用NeMo构建机器人实现回答问题的“大脑 “
    • 使用NeMo构建机器人实现语音合成的“嘴巴“
    • 运行您的智能对话机器人完成会话式AI的综合应用 
  • 使用NeMo快速构建智能问答系统

    智能问答系统是自然语言处理领域的重要任务之一, 它是对无序语料信息进行有序、科学的整理,建立基于知识的分类模型; 这些模型可以指导新添加的分类语料库和服务信息,节省人力资源,提高信息处理的自动化程度。 它具有广泛的应用如:智能语音交互、在线客服、知识获取、个性化情感聊天等。

    NeMo是一个用于构建新型最先进的对话AI模型的工具箱, NeMo有独立的集合用于自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS)模型。

     本次网络研讨会面向的是对会话AI感兴趣的开发人员。

    通过本次研讨会,您可以获得以下信息:

    • 智能问答系统简介 
    • 智能问答系统的工作流程和原理
    • 构建适合于NeMo的中文问答数据集
    • 在NeMo中训练中文问答系统模型
    • 使用模型进行推理完成中文智能问答的任务
  • NVIDIA对话式AI开发工具 NeMo的应用

    网络研讨会1:

    主题:使用NeMo快速完成文本分类任务

    时间:2021年8月12日,星期三,晚上8点至9点30分,晚上7点30分,讲师登录

    持续时间:1.5小时

    课程描述:

    文本分类是自然语言处理领域的子任务之一。 它是指将包含信息的文本通过计算机映射到指定类别或若干类别的主题的过程。文本分类的应用场景包括:新闻主题分类(文章分类)、情感分析、舆情分析、邮件过滤等。 NeMo是一个用于构建先进的对话AI模型的工具库,NeMo有独立的集合用于自动语音识别(ASR)、自然语言处理(NLP)和文本到语音(TTS)模型。

    本次网络研讨会面向的是对会话式AI感兴趣的开发人员。

    通过本次研讨会,您可以获得以下信息:

    • 文本分类简介
    • 情感分析任务介绍
    • 构建适合于NeMo的中文文本分类数据集
    • 训练器的设置和模型配置方法
    • 在NeMo中训练中文文本分类模型
    • 使用模型进行推理完成情感分类的应用
  • CUDA 编程基础 – 利用CUDA实现卷积操作

    NVIDIA CUDA Toolkit提供了一个开发环境,用于创建高性能GPU加速应用程序。通过CUDA Toolkit,您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用程序.

    CUDA编程模型已经广泛地应用于人工智能领域。由于GPU硬件结构的特性,使得它能够为AI提供强大的计算力的支持。卷积操作在很多网络模型中都被广泛使用,了解CUDA如何帮助卷积操作加速,将会帮助您在AI领域事半功倍。本次课程将介绍,如何利用CUDA及相关加速库实现卷积操作。

    本次课程针对需要进行HPC和AI的开发者。通过本次课程,您可以了解到以下内容:

    • CUDA 流
    • cuBLAS
    • cuFFT
    • cuDNN
    • 编程实例:利用CUDA实现卷积操作
  • CUDA 编程基础 – 利用CUDA实现光线追踪

    NVIDIA CUDA Toolkit提供了一个开发环境,用于创建高性能GPU加速应用程序。通过CUDA Toolkit,您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用程序.

    CUDA编程模型已经广泛地应用于在计算机视觉领域。特别是在数字内容创建,图像渲染和模拟等行业GPU提供了强大的计算能力。本次课程将介绍GPU多种存储单元的先进性,并利用它们的特点来优化程序。

    本次课程针对需要进行HPC和AI的开发者。通过本次课程,您可以了解到以下内容:

    • GPU多种存储单元的特点
    • 使用Shared memory的实例
    • 使用Constant memory的实例
    • 编程实例:利用CUDA实现光线追踪
  • CUDA编程基础 – 利用CUDA加速图像处理

    NVIDIA CUDA Toolkit提供了一个开发环境,用于创建高性能GPU加速应用程序。通过CUDA Toolkit,您可以在GPU加速的嵌入式系统、桌面工作站、企业数据中心、基于云的平台和HPC超级计算机上开发、优化和部署应用程序.

    CUDA编程模型已经广泛地应用于在计算机视觉领域,对图像的预处理已经成为很多领域必不可少的一步。本节课程将会以图像处理为实例来介绍如何利用CUDA加速应用程序

    本次课程针对需要进行HPC和AI的开发者。通过本次课程,您可以了解到以下内容:

    • GPU硬件结构
    • CUDA 编程模型
    • CUDA 线程层次
    • CUDA 存储单元
    • 利用CUDA进行图像处理
    • 实例:利用CUDA加速Sobel 边缘检测
  • 基于 Python 的口罩检测模块代码解析

    受今年新冠疫情的影响,快速的口罩检测成为了目前一个比较火热的话题。在不同的场景下,快速训练并部署一个属于自己的口罩检测模型成为了搭建高效防疫机制的关键。

    本次课程将介绍如何利用 NVIDIA TAO 工具包,在 Python 的环境下快速训练并部署一个口罩监测模型。并会详细介绍,如何利用该工具,对模型进行剪枝,评估并优化。TAO 工具包 内包含了 95 个预训练模型,6 个常用网络模型,用户不用从头开始训练,极大地减轻了准备样本的工作量,让开发者专注于模型的精度提升。

    TAO 工具包 是一个基于 Python 的工具包,它使开发人员能够利用 NVIDIA 预先训练的模型,并为开发人员提供一系列的工具,使流行的网络架构适应他们自己的数据,并且能够训练、调整、修剪和导出模型以进行部署。它还拥有简单的接口和抽象 API,提高了深度学习训练工作流的效率。

    本次在线研讨会主要面向有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • NVIDIA TAO 工具包 2.0 的最新特性
    • 利用 nvidia-docker 快速部署 NVIDIA TAO 工具包
    • 利用 NVIDIA TAO 工具包 快速搭建深度学习训练环境
    • 利用 TAO 工具包 快速训练部署口罩检测模型

    下载 PPT

  • CUDA Python - 存储管理以及卷积计算

    CUDA 编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。Numba 是一个支持 Python CUDA 的编译器,它为 Python 开发人员提供了一个简单的进入 GPU 加速计算的入口,用最简单的方式加速您的应用。

    本次在线研讨会主要针对有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • 深入了解 CUDA 存储模式
    • CUDA Python 深入的编程技巧
    • 利用 CUDA Python 处理卷积操作

    下载 PPT

  • CUDA Python - 编程基础以及图像处理

    CUDA 编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。Numba 是一个支持 Python CUDA 的编译器,它为 Python 开发人员提供了一个简单的进入 GPU 加速计算的入口,用最简单的方式加速您的应用。

    本次在线研讨会主要针对有高性能计算和人工智能开发需求的开发者,通过本次在线研讨会,您可以获得以下内容:

    • 深入了解 CUDA 存储模式
    • CUDA Python 深入的编程技巧
    • 利用 CUDA Python 处理卷积操作

    下载 PPT

  • 利用 NVIDIA TAO 工具包加速 Jetbot 智能小车的推理引擎部署

    NVIDIA TAO 工具包是一个基于python的工具包,它使开发人员能够使用NVIDIA预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出模型以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率。

    本次在线研讨会主要针对人工智能和深度学习的开发者,介绍如何快速部署一个Jetbot智能小车,并将NVIDIA TAO 工具包构建的引擎部署在Jetbot上。

    通过本次在线研讨会,您可以获得以下内容:

    • 利用NVIDIA TAO 工具包构建SSD目标检测网络的推理引擎
    • 将推理引擎迁移到以NVIDIA Jetson NANO为核心的Jetbot智能小车上
    • 在Jetbot智能小车上部署推理引擎

    下载 PPT

  • CUDA 并行计算编程基础

    CUDA编程方法是目前广泛使用的并行化程序编程方法。在深度学习,计算机视觉,生物医疗,环境科学,气象预报,石油勘探等领域具有大量的使用场景。通过这堂课,您将学会:

    • 利用CUDA编程模型实现矩阵乘法
    • 共享内存基础
    • 利用共享内存加速矩阵乘法

     

    受众目标:针对 GPU 平台程序有开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : wdhz)

      链接: (提取码 : op40)

  • CUDA 优化 - 共享内存以及常量内存

    本次课程将深入的介绍如何利用共享内存和常量内存来加速GPU程序,通过本次课程,您将学会

    • 深层次的共享内存的知识
    • 常量内存的概念
    • 利用常量内存和共享内存加速 GPU 程序

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : hqjp)

  • CUDA 优化-多流执行

    多流执行是 CUDA 编程模型中的重要加速手段,本次课程将深入的介绍如何利用多流执行来加速 GPU 程序,通过本次课程,您将学会:

    • GPU 流的基本概念
    • 多流执行的应用
    • GPU 程序的性能分析

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gf02)

  • CUDA 优化- cuBLAS 的使用

    NVIDIA cuBLAS 库是标准基本线性代数子程序( Basic Linear Algebra Subroutines)的 GPU 加速库. 使用cuBLAS API,您可以通过将密集型计算部署到单个 GPU 来加速应用程序,或者有效地扩展和分配到多GPU配置的服务器上,通过本次课程,您将学到

    • cuBLAS 基础介绍
    • cuBLAS 的应用
    • cuBLAS 的实例展示

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : k1g1)

  • GPU 人工智能服务器的搭建

    在这门课中,您将学会如何从头开始配置一台 GPU AI 服务器,我们会结合硬件系统和软件系统介绍完整的解决方案。内容包括:

    • 硬件平台系统的搭建
    • GPU 的性能特点
    • 当前已经成熟的解决方案
    • 软件系统的安装配置
    • CUDA,cuDNN 以及 NVIDIA DeepLearning SDK 的介绍

     

    受众目标:针对有 GPU 平台开发需求的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : krf5)

  • NVIDIA DIGITS 及其在迁移学习中的应用

    • DIGITS 诞生背景及功能简介
    • DIGITS 的训练数据集导入
    • DIGITS 的基本模型训练操作:图片分类
    • DIGITS 用于目标检测
    • DIGITS 用于图像分割
    • DIGITS 迁移学习的使用
    • DIGITS Plugin 的使用

     

    受众目标:针对有图像处理和机器视觉知识背景的人员

    时长: 1.5 小时

      PPT 下载链接 (提取码 : 2abe)

  • 使用 NVIDIA 免费工具 TensorRT 加速推理实践 -- YOLO 目标检测

    此课程将会介绍如何利用 TensorRT 加速 YOLO 目标检测,课程将会着重介绍编程方法。本次课程还会涉及到 TensorRT 中数据类型,流处理,多精度推理等细节的展示

    • TensorRT 简介
    • TensorRT 优化 YOLO 的实战编程
    • TensorRT 实例展示

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 8x5w)

  • 使用 TensorRT 加速推理结果计算

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT 6.0 的最新特性,以及如何利用CUDA和cuDNN创建新的组件。

    • TensorRT 6.0的性能特点
    • TensorRT Plugin的实现方法
    • TensorRT Plugin的开发方法细节
    • cuDNN 的使用技巧

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : 0taa)

  • 使用 TensorRT 加速推理结果计算 ,配合 Deepstream

    本次在课程针对有模型训练知识背景的技术人员,将会介绍 TensorRT的最新特性,以及 Deepstream 的使用方法。

    • TensorRT 的性能特点
    • TensorRT 的优化原理
    • TensorRT 的开发方法细节
    • TensorRT 和 TensorFlow 的集成开发方法
    • Deepstream 的性能特点以及开发使用

     

    受众目标:对于 TensorRT 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : c1id)

  • TensoRT in Jetbot

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • 智能小车设计基础知识
    • 数据收集及本地模型训练
    • 利用TensorRT优化及部署网络

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : k2g9)

  • Jetson NANO and TensorRT 在 MEV 小车中的应用

    本次课程将会就探讨自动驾驶机器人 Jetbot 的软硬件搭建,功能实现以及深度学习部署和优化的方案。在这次活动中,将会从多个角度全面地介绍如何快速的搭建一个完整的智能小车方案

    • Jetson NANO & Jetracer
    • JetRacer 体系结构
    • 利用TensorRT加速推理过程

     

    受众目标:对于 Python 有一定基础的开发人员

    时长: 1 小时

      PPT 下载链接 (提取码 : nz5p)

  • NVIDIA TAO 工具包的部署和使用

    NVIDIA TAO 工具包 是一个基于 python 的工具包,它使开发人员能够使用 NVIDIA 预先训练好的模型,并让开发人员能够使用流行的网络架构适配他们自己的数据来训练、调整、修剪和导出以进行部署。它拥有简单的接口和抽象,提高了深度学习训练工作流程的效率

    • 搭建和部署NVIDIA TAO 工具包
    • 利用NVIDIA TAO 工具包调用预训练网络模型
    • 利用NVIDIA TAO 工具包训练模型
    • 将训练好的模型导出并部署加速

     

    受众目标:针对人工智能和深度学习的开发者

    时长: 1 小时

      PPT 下载链接 (提取码 : gqh3)

  • Style-Gan 的架构与实现

    A Style-Based Generator Architecture for Generative Adversarial Networks 是 NVIDIA 在 2018 年发布的一个新的生成对抗网络方法。StyleGAN是一步一步地生成人工的图像,从非常低的分辨率开始,一直到高分辨率(1024×1024)。通过分别地修改网络中每个级别的输入,它可以控制在该级别中所表示的视觉特征,从粗糙的特征(姿势、面部形状)到精细的细节(头发颜色),而不会影响其它的级别。此课程将会介绍 Style-Gan 的基本框架和原理,并具体介绍模型的训练,以及训练好模型的应用,包括:

    • StyleGan 介绍、架构特点,以及与传统的 Gan 之间的区别
    • StyleGan 效果和应用
    • StyleGan 模型训练以及实际代码中,利用 StyleGan 模型生成图片

     

    受众目标:针对有模型训练知识背景的技术人员

    时长: 1 小时

      PPT 下载链接 (提取码 : pms7)

  • NVIDIA Jetson NANO 十行代码搞定目标检测

    本视频介绍了如何在 NVIDIA Jetson NANO 上快速的搭建部署一个目标检测任务,并调用安装好的工具包利用十行代码完成目标检测

    • 下载,编译和安装 NVIDIA Jetson Inference项目
    • 下载预训练模型
    • 构建推理引擎
    • 完成代码

     

    受众目标:有深度学习经验的开发者

    时长: 40 分钟