数据工程是数据科学的基础,为分析和建模奠定了基础。为了让组织机构能够从结构化和非结构化数据中提取信息和见解,快速访问准确且完整的数据集至关重要。处理不同来源的海量数据需要复杂的基础设施和专业技能。当扩展到数百万乃至数万亿个数据点时,看似微不足道的低效有可能导致巨大的时间和金钱成本。

在此课程中,我们将探讨 GPU 如何改进数据工作流,以及如何运用先进的数据工程技术和工具,显著加速性能。通过更快速的数据通道创建仪表板和机器学习(ML)模型,用户可以随时获得最新信息。

 

学习目标


参加本次培训,您将学习到:
  • 数据在计算机内的移动方式。如何在 CPU、DRAM、磁盘内存与 GPU 之间构建适当的平衡。硬件如何读取和操控不同的文件格式。
  • 通过多个 GPU, 如何使用 NVTabular 扩展 ETL 通道。
  • 如何构建交互式 Plotly 仪表板,让使用者秒筛数百万的数据点。

下载课程大纲 (PDF 318 KB)

课程大纲

课程介绍
(15 分钟)
硬件上的数据
(60 分钟)
    探索不同硬件处理数据方法的优缺点,以及支持这些方法的框架
    • Pandas
    • CuDF
    • Dask
休息 (15 分钟)
采用 NVTabular 的 ETL
(120 分钟)
    通过大数据推荐系统,学习如何使用 NVTabular 将 ETL 通道从 1 个 GPU 扩展至多个
    • 将原始 Json 转换为分析就绪的 Parquet 文件
    • 学习如何快速向数据集添加特征,例如 Categorify 和 Lambda 运算符
休息 (60 分钟)
数据可视化
(120 分钟)
    扮演气象专家角色,学习如何在地图上绘制降水数据
    • 学习如何使用描述性统计数据和直方图等图形来评估数据质量
    • 学习如何提升内存使用效率,让用户快速通过图形界面筛选数据
休息 (15 分钟)
结课项目:数据侦探
(60 分钟)
    用户抱怨说,仪表板速度太慢。运用本课中学到的技术,查找和消除后端代码的效率问题
总结
(15 分钟)
  • 回顾所学要点并解答问题
  • 完成评估并获得证书
  • 填写培训调查表
  • 了解如何设置您自己的 AI 应用程序开发环境
 

培训详情

课程时长: 8 学时

课程价格: 请联系我们以了解价格

预备知识:

技术: pandas、cuDF、Dask、NVTabular、Plotly

课程测试题类型: 基于技能的编码测试,评估您通过交互式仪表板对百万数据点进行高效筛选的能力。

培训证书: 成功完成本课程和测试后,您将获得 NVIDIA DLI 证书,以证明您在这一主题领域的能力,助力您的职业发展。

学习此课程的硬件要求: 您需要一台笔记本电脑或台式机,且能够运行最新版 Chrome 或 Firefox 浏览器。我们为您提供在云端完全配置的 GPU 加速工作站的专用访问权限。

课程语言: 英语

Upcoming Workshops

如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的明智之选。

学习更多 DLI 课程

加速计算基础——CUDA Python

加速数据科学基础

构建智能推荐系统

遇到问题?