GPU 加速的 Apache Spark 3

Spark 3 和 GPU

鉴于许多数据处理任务的并行性质，GPU 的大规模并行架构自然应能并行执行 Spark 数据处理查询，并能像 GPU 加快人工智能 (AI) 领域的深度学习 (DL) 那般来加快此查询速度。因此，NVIDIA® 已与 Spark 社区合作，共同致力在 Spark 3.x 中实现 GPU 加速。

虽然 Spark 是以分割数据形式在节点分区中分发计算，但其向来是在 CPU 核心上执行计算操作。但若在 Spark 中引入 GPU 加速，则可带来诸多优势。其一，可减少所需的服务器数量，降低基础设施成本。而且凭借查询速度的提升，用户有望缩短获得结果的时间。此外，由于 GPU 加速是透明的，您无需更改专为在 Spark 上运行而构建的应用程序，即可让应用程序获得 GPU 加速的优势。

Spark 中加速的 ETL 和 AI

随着机器学习 (ML) 和深度学习 (DL) 越来越多地应用于更大的数据集，Spark 已成为一种常用工具，能够在准备学习阶段的原始输入数据时执行所需的数据预处理和特征工程任务。Spark 社区一直专注于将此端到端流程的上述两个阶段合并在一起，以便数据科学家只使用单个 Spark 集群，而不必通过外部数据湖在这两个阶段之间迁移数据。Horovod（由 Uber 构建）和 TensorFlowOnSpark（由 Yahoo 构建）就是其中的典范。

Spark 3.x 象征着一个重要的里程碑，代表 Spark 现已能在搭载 GPU 的 Spark 集群上调度 GPU 加速的 ML 和 DL 应用程序。完整的 Spark 3 软件堆栈包括用于 Apache Spark 的 RAPIDS 加速器，如下图所示。

基于 NVIDIA CUDA 的全新 GPU 加速库

如前所述，NVIDIA® CUDA® 是一个编程模型和一组 API，可用于加速 NVIDIA GPU 架构上的操作。基于 CUDA 的 RAPIDS 是一套开源软件库和 API，能够通过 DataFrame 和图形运算提供 GPU 并行机制和高带宽显存速度。

GPU 加速的 RAPIDS Spark DataFrame

RAPIDS 基于 Apache Arrow 数据结构提供强大的 GPU DataFrame。Arrow 通过指定独立于语言的标准化列式内存格式（专为数据局部性优化），来加快现代 CPU 或 GPU 的分析处理性能。借助 GPU DataFrame，来自多个记录的列值批次能利用现代 GPU 设计，并能加快读取、查询和写入速度。

GPU 加速的 Spark DataFrame 和 SQL

对于 Apache Spark 3.0，新的 RAPIDS API 由 Spark SQL 和 DataFrame 用于 GPU 加速且节约内存的列式数据处理和查询方案。利用 RAPIDS 加速器，Catalyst 查询优化器插件接口获得了扩展，可识别通过 RAPIDS API 加速的查询方案（主要是一对一映射）中的运算符，并可在执行查询方案时在 Spark 集群中的 GPU 上调度这些运算符。

利用针对 CPU 的物理规划，DataFrame 数据将转换为 RDD 行格式，而且通常以一次一行的方式接受处理。Spark 支持列式批次，但在 Spark 2.x 中，只有矢量化 Parquet 和 ORC 读取器使用它。RAPIDS 插件将 GPU 上的列式批次处理扩展到大多数 Spark 操作。对 GPU 而言，处理列式数据比逐行处理要容易得多。

新的 Spark shuffle 实现建立在 OpenUCX 通信库基础上，它利用 NVLink、RDMA 和 InfiniBand（如果可用）通过以下做法大幅减少了 Spark 进程间的数据传输：尽可能多地将数据保留在 GPU 上，找到在节点之间移动数据的最快路径，使用最佳的可用硬件资源（包括绕过 CPU 执行 GPU 到 GPU 显存节点内和节点间传输）。 RDMA 支持 GPU 以 PCIe 速度在节点之间直接迁移数据，就像在一台大型服务器上执行操作一样。 NVLink 支持 GPU 以高达 300GB/s 的速度发起对等通信。

Spark 中的 GPU 感知调度

Spark 3.x 已集成 YARN、Kubernetes 和 Standalone 集群管理器，便于用户请求 GPU 以及可通过扩展在 GPU 上执行操作的插件点。对于 Kubernetes，Spark 3.x 在执行程序单元级别进行 GPU 隔离。这样一来，Spark 应用程序开发者便可更轻松地请求和使用 GPU，并与 DL 和 AI 框架（例如 Spark 上的 Horovod 和 TensorFlow）更紧密地集成，同时还能更充分地利用 GPU。

GPU 调度流示例如下图所示。用户提交一个包含 GPU 资源配置发现脚本的应用程序。Spark 启动驱动，以便使用配置传递给集群管理器，并请求包含指定数量资源和 GPU 的容器。集群管理器返回容器。Spark 启动容器。执行程序启动时，会运行发现脚本。Spark 将该信息发送回驱动，而驱动随后使用该信息将任务调度至 GPU。

Spark Web UI 已经过修改，用户现可使用新复选框查看已分配的资源。此实例中已分配两个 GPU。

Spark 3.x 阶段级资源调度功能可让用户为一个阶段选择一种容器大小，而为另一阶段选择另一种大小。例如，为 ETL 阶段选择一种容器大小，为 ML 阶段选择另一种大小。

XGBoost、RAPIDS 和 Spark

XGBoost 是一种可扩展的分布式梯度提升决策树 (GBDT) ML 库。XGBoost 提供并行树提升功能，是应用于回归、分类和排序问题的出色 ML 库。RAPIDS 团队与 Distributed Machine Learning Common (DMLC) XGBoost 组织建立了紧密的合作关系，而且 XGBoost 现已加入无缝嵌入式 GPU 加速特性，可显著加快模型训练速度并提高准确性，从而得出更精确的预测结果。

RAPIDS、XGBOOST 和 SPARK 的以下三个功能有助于提高速度，并降低成本：

GPU 加速的 DataFrame：可将任意数量或大小的受支持格式输入文件直接读入 GPU 显存，并在不同的训练节点之间平均分配。
GPU 加速的训练：训练数据采用动态内存表示形式，便于根据数据集的稀疏性以理想方式存储特征，因此可缩短 XGBoost 训练时间。此表示形式取代了基于不同训练实例中最大特征数量的固定内存表示形式。
高效利用 GPU 显存：XGBoost 要求数据大小适合显存，因此需通过单个 GPU 或分布式多 GPU 多节点训练来创建数据大小限制。最新版已将 GPU 显存利用率提高 5 倍。现在，用户训练时所用数据的大小可以高达第一版的 5 倍。如此既可降低训练总成本，又不会影响性能。

我们稍后会在此电子书中探讨使用升级版 XGBoost 库的示例，以便使用 GPU 加载和转换数据以及执行分布式训练。

Spark 3.x 的其他功能

自适应查询执行：Spark 2.2 在现有基于规则的 SQL 优化器中增加了基于成本的优化。Spark 3.0 现已具有运行时自适应查询执行 (AQE) 功能。利用 AQE，从查询方案的已完成阶段检索的运行时统计信息将用于重新优化剩余查询阶段的执行计划。使用 AQE 时，Databricks 基准测试的提速幅度从 1.1 倍到 8 倍不等。

Spark 3.0 AQE 优化功能包括：
- 动态合并 shuffle 分区：在 shuffle 阶段中，AQE 可以通过查看 shuffle 文件统计信息将相邻的小分区合并为较大的分区，从而减少查询聚合的任务数量。
- 动态切换连接策略：AQE 可以根据连接关系大小在运行时优化连接策略。例如，将排序合并连接转换为广播哈希连接，这在连接的一侧小到足以装入内存时具有更好的性能。
- 动态优化倾斜连接：AQE 可以使用运行时统计信息检测排序合并连接分区大小中的数据倾斜，并将倾斜分区拆分为较小的子分区。

动态分区裁剪：分区裁剪是一种性能优化方式，可限制查询时 Spark 读取的文件和分区的数量。为数据分区后，符合特定分区筛选条件的查询通过让 Spark 只读取相关目录和文件的子集，进而提高性能。Spark 3.0 动态分区裁剪功能可让 Spark 引擎在运行时动态推理表中需要为特定查询读取和处理的特定分区，这是通过识别在过滤连接中的另一个表后获得的分区列值实现的。例如，以下查询涉及两个表：flight_sales 表和 flight_airports 表，前者包含按启程机场分割的所有航班的全部销售总额，后者包含各区域的机场映射。下面我们要查询美国东北部区域的销售额。

select fs.airport, fs.total_sales
from flight_sales fs, flight_airports fa
where fs.airport = fa.airport and fa.region = 'NEUSA'

使用动态分区裁剪时，此查询将只扫描和处理区域上的 where 过滤器返回的机场的分区。通过减少要读取和处理的数据量，能节省大量时间。

连接策略提示指示优化器将提示的计划用于连接策略。MERGE、SHUFFLE_HASH 和 SHUFFLE_REPLICATE_NL 提示已添加到现有的 BROADCAST 提示中。
数据源 API 改进：
- 集成可插入目录。
- 改进了谓词下推，可通过减少要加载的数据来加快查询速度。

总结

本章介绍了 Spark 3.x 的主要改进，这些改进有助于缩短获得见解的时间，尤其是在 NVIDIA GPU 上执行操作时。有关新的 Spark 3.0 功能的详细信息，请参阅 Spark 3.0 版本说明。

请您注册以阅读全文

Section

Section

名字

姓氏

工作电子邮件地址

组织/大学名称

地点

首选语言

省/自治区/直辖市

enterpriseOptIns hidden field

请向我发送 NVIDIA 的企业最新动态、公告及更多内容。我可以随时取消订阅。

NVIDIA 隐私政策

本人知悉且同意 NVIDIA <span class="corporation-txt hidden">Corporation </span>基于调研、活动组织的目的对本人的上述信息的收集和处理，并已经阅读并同意 <a href="https://www.nvidia.cn/about-nvidia/privacy-policy/?deeplink=visiting-our-website" target="_blank">NVIDIA 隐私政策</a>。

本人知悉且同意，因调研、活动组织的必须，以及相对应的 NVIDIA 内部管理和系统操作的需要，上述信息会被传输到位于美国的 NVIDIA Corporation 按照符合 <a href="https://www.nvidia.cn/about-nvidia/privacy-policy/?deeplink=visiting-our-website" target="_blank">NVIDIA 隐私政策</a>的方式进行存储，您可以通过发送邮件至 <a href="mailto:privacy@nvidia.com">privacy@nvidia.com</a> 进行联系以解决相关问题，实现可适用的数据保护法所规定的权利。