随着 ML 和 DL 越来越多地应用于更大的数据集,在为学习阶段准备原始输入数据时,Spark 已成为数据预处理和特征工程的常用工具。Spark 社区致力于将此端到端作业的两个阶段结合在一起,以便数据科学家可以处理单一 Spark 集群,避免在阶段之间将数据移动到外部数据湖而带来的代价。Horovod(由 Uber 支持)和 TensorflowOnSpark(由 Yahoo 支持)就是这种方法的示例。
Spark 3 代表关键里程碑,因为 Spark 现在可以利用 GPU 在 Spark 集群上调度 GPU 加速的 ML 和 DL 应用。此加速数据科学作业的完整堆栈如下所示: