高性能 数据科学

利用 GPU 的强大功能轻松加速数据科学、机器学习和 AI 工作流程。

借助高速 GPU 计算运行整个数据科学工作流程,并行开展数据加载、数据处理和机器学习,将端到端数据科学流程的速度提高 50 倍。

为何选择 RAPIDS?

nvidia-data-science-process-1cn-d

构建高性能生态系统

RAPIDS 由一系列开源软件库和 API 组成,用于完全在 GPU 上执行数据科学流程,从而可将训练时间从几天缩短到几分钟。RAPIDS 以 NVIDIA® CUDA-X AI 为基础,融合了显卡、机器学习、深度学习、高性能计算 (HPC) 等领域多年来的发展成果。

执行速度更快

执行速度更快

快速得出结果是数据科学的宗旨。RAPIDS 会在底层利用 NVIDIA CUDA® ,通过在 GPU 上运行整个数据科学训练流程,帮助您加速工作流程。这可将模型部署的训练时间和频率从几天缩短到几分钟。

使用相同工具

使用相同工具

通过隐藏 GPU 的工作复杂性,甚至隐藏数据中心架构内的后台通信协议,RAPIDS 提供了完成数据科学的简单方法。随着越来越多的数据科学家使用 Python 等高级语言,我们必须要在实现加速的同时避免代码变更,这样才能迅速缩短开发时间。

在任何位置大规模运行

在任何位置大规模运行

RAPIDS 的运行位置不受限制,在云端或本地均可。您可轻松将其从工作站扩展到多 GPU 服务器,再到节点集群,并可在生产环境中与 Dask、Spark、MLFlow 和 Kubernetes 搭配部署。

针对大数据的超速性能

结果表明,针对小型及大规模的大数据分析问题,GPU 可以节省大量成本和时间。RAPIDS 使用 10TB 大小的常见 API(如 Pandas 和 Dask),相较于最高的 CPU 基准,其在 GPU 上的运行速度要快 20 倍。NVIDIA 解决方案仅使用 16 台 NVIDIA DGX A100 即可达到 350 台基于 CPU 的服务器的性能,而且在提供 HPC 级性能的同时,其成本效益提高了 7 倍以上。

nvidia-16-dgx-a100-2c50-d

更快的数据访问,更少的数据迁移

常见的数据处理任务有多个步骤(数据流程),而 Hadoop 无法高效处理这些步骤。Apache Spark 通过在系统内存中保存所有数据解决了这个问题,这让数据流程变得更加灵活复杂,但也引入了新的瓶颈。在拥有数百个 CPU 节点的 Spark 集群上,即使是分析几百 GB 的数据也可能要花费数小时,甚至数天时间。为发挥数据科学的真正潜力,GPU 必须位于数据中心设计的中心,它包含以下五个要素:计算、网络、存储、部署和软件。一般来说,相较于 CPU,GPU 上的端到端数据科学工作流程要快 10 倍。

阅读博客 ›

数据处理演进

Faster Data Access, Less Data Movement

RAPIDS 无处不在

RAPIDS 为全新高性能数据科学生态系统奠定了基础,并通过互操作性降低了新库的准入门槛。通过集成领先的数据科学框架(如 Apache Spark、cuPY、Dask 和 Numba)以及众多深度学习框架(如 PyTorch、TensorFlow 和 Apache MxNet),RAPIDS 可帮助扩大采用范围并支持集成其他内容。您可以在 NGC 目录中找到 RAPIDS 和相关框架。

  • 特色项目
  • 贡献者
  • 采用者
  • 开源
blazingsql-logo

BlazingSQL 是 Python 中的高性能分布式 SQL 引擎,其基于 RAPIDS 构建,以此在 GPU 上提取、转换和加载 (ETL) 大量数据集。

nvtabular-logo

NVTabular 基于 RAPIDS 构建,可在 GPU 上加速针对推荐系统的特征工程和处理。

custreamz-logo

Streamz 基于 cuStreamz,通过 Python 语言编写,并基于 RAPIDS 构建,可加速 GPU 上的流式数据处理.

plotly-dash-logo

Plotly Dash 与 RAPIDS 相集成,即使是在单块 GPU 上也支持对多 GB 数据集进行实时、交互式视觉分析。

apache-spark-logo

用于 Apache SPARK 的 RAPIDS 加速器 为 Apache Spark 提供了一组插件,该插件可利用 GPU 加速 RAPIDS 和 UCX 软件的处理。

anaconda-logo
Blazing SQL
capital-one-logo
cupy-logo
chainer-logo
deepwave-digital-logo
gunrock-logo
quansight-logo
walmart-logo
booz-allen-hamilton-logo
capital-one-logo
databricks-logo
graphistry-logo
h2oai-logo
ibm-logo
iguazio-logo
inria-logo
kinetica-logo
mapr-logo
omnisci-logo
preferred-networks-logo
pytorch-logo
uber-logo
ursa-labs-logo
walmart-logo
apache-arrow-logo
Blazing SQL
cupy-logo
dask-logo
gpu-open-analytics-initiative-goai-logo
nuclio-logo
numba-logo
scikit-learn-logo
dmlc-xgboost-logo

核心技术

RAPIDS 依靠 CUDA 基元进行低级别计算优化,但通过用户友好型 Python 接口实现了 GPU 并行化和高显存带宽。RAPIDS 支持从数据加载和预处理到机器学习、图形分析和可视化的端到端数据科学工作流程。它是功能完备的 Python 堆栈,可扩展到企业大数据用例。

数据加载和预处理

数据加载和预处理

RAPIDS 的数据加载、预处理和 ETL 功能基于 Apache Arrow 构建,用于加载、连接、聚合、过滤及以其他方式处理数据,且所有这些操作均是在数据科学家熟悉的类似 Pandas 的 API 中进行的。通常来说,用户的速度有望提升 10 倍甚至更多。

机器学习

机器学习

RAPIDS 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 XGBoost、随机森林等主流工具。对于大型数据集来说,相较于同等功效的 CPU,这些基于 GPU 能够以 10 到 50 倍的速度更快完成任务。

图形分析

图形分析

RAPIDS 的图形算法(如 PageRank)和功能(如 NetworkX)高效利用了 GPU 的大规模并行计算能力,可将较大图形的分析速度提高 1000 倍以上。在单块 NVIDIA A100 Tensor Core GPU 上探索多达 2 亿个边缘节点,并在 NVIDIA DGX™ A100 集群上扩展至数十亿个边缘节点。

可视化

可视化

RAPIDS 的可视化功能支持 GPU 加速的交叉过滤。受原始版本的 JavaScript 启发,它可以对超过 1 亿行表格数据集进行超快速的交互式多维过滤。

Machine Learning to Deep Learning: All on GPU

深度学习集成

虽然深度学习在计算机视觉、自然语言处理和推荐系统等领域十分有效,但在某些领域却不能大范围推广。表格数据问题中包含多列分类变量和连续变量,通常采用诸如 XGBoost、梯度提升或线性模型之类的技术。RAPIDS 简化了 GPU 上表格数据的预处理,并将数据直接无缝移交至支持 DLPack 的任何框架,例如 PyTorch、TensorFlow 和 MxNet。这些集成让您有机会搭建丰富的工作流程,即使是之前出于某些原因无法实现的搭建也能完成,例如将深度学习框架中创建的新功能反馈回机器学习算法。

面向数据科学的现代数据中心

在企业中构建 AI 优化的数据中心有五个关键要素。设计的关键在于将 GPU 置于中心。

计算

计算

凭借出色的计算性能,采用 NVIDIA GPU 的系统已成为 AI 数据中心的核心计算构建块。NVIDIA DGX 系统提供开创性的 AI 性能,并且平均可以替代 50 台双路 CPU 服务器。这是为数据科学家提供业界超强数据探索工具的第一步。

软件

软件

通过隐藏数据中心架构中使用 GPU 和幕后通信协议的复杂性,RAPIDS 通过简单的方法来完成数据科学任务。随着越来越多的数据科学家使用 Python 等高级语言,我们必须要在实现加速的同时杜绝代码变更,这样才能迅速减少开发时间。

网络

网络

NVIDIA Mellanox® 网络接口控制器 (NIC)、NCCL2(NVIDIA 集合通信库)和 OpenUCX(开源的点对点通信框架)中的远程直接内存访问 (RDMA) 让训练速度有了大幅提升。借助 RDMA,GPU 可以在节点间以高达每秒 100GB (Gb/s) 的速度彼此直接进行通信,它们可以跨多个节点运行,且运行方式如同在一台大型服务器上的一样。

部署

部署

企业正在向 Kubernetes 和 Docker 容器迁移,以便大规模部署流程。通过将容器化应用程序与 Kubernetes 相结合,我们可以让企业更改最重要任务的优先级,并为 AI 数据中心增加弹性、可靠性和可扩展性。

存储

存储

借助 GPUDirect® Storage,NVMe 和 NVMe over Fabric (NVMe-oF) 可直接从 GPU 读取数据并将数据写入其中,无需占用 CPU 和系统内存。这样可以腾出 CPU 和系统内存来执行其他任务,同时让每块 GPU 以高达 50% 的带宽访问更高数量级的数据。

我们对于开源的承诺 数据科学

NVIDIA 致力于简化、统一和加速开源社区的数据科学。通过优化从硬件到软件的整个堆栈,消除迭代数据科学的瓶颈,NVIDIA 将帮助全球各地的数据科学家达到事半功倍的效果。这将让企业最宝贵的资源(即数据和数据科学家)为企业带来更多价值。作为 Apache 2.0 开源软件,RAPIDS 在 GPU 上整合了一个生态系统。

计算能力不足的情况下,数据科学家不得不让算法“降级”,这样才能达到足够快的运行速度。不过现在这个问题已不复存在。GPU 让我们能够完成以前很多力不从心的任务。

- Walmart 首席数据官 Bill Groves

NASA 的全球模型可生成数 TB 数据。在 RAPIDS 出现前,点击按钮后要等六到七个小时才能得出结果。加速训练周期让模型开发彻底改观。

- NASA 戈达德太空飞行中心 John Keller 博士

鉴于模型训练时间缩短至原来的 1/100,成本节省了 98%,Capital One 由此断定 RAPIDS.ai 和 Dask 将引发数据科学和机器学习的新一轮热潮。

- Capital One 机器学习中心软件工程总监 Mike McCarty

立即开始使用