NVIDIA 加速数据科学

针对数据科学优化的先进硬件到软件堆栈

Join us at GTC 2020 for the latest on Data Science, March 23-26

GPU 加速数据科学工作流程

传统上,数据科学工作流程缓慢且繁琐,依靠 CPU 来加载、过滤和操作数据,以及训练和部署模型。凭借 RAPIDS™ 开源软件库,GPU 可显著降低基础设施成本,并为端到端数据科学工作流程提供出色性能。GPU 加速的数据科学在笔记本电脑、数据中心、边缘和云端均可使用。

 

特性和优势

更大限度提升工作效率

更大限度提升工作效率

减少为获得宝贵见解而等待的时间,并加快提升投资回报率。

Ease of Use

Ease of Use

Accelerate your entire Python toolchain with open-source, hassle-free software integration and minimal code changes.

Accomplish More

Accomplish More

可将机器学习训练速度提升高达 215 倍,执行更多迭代,增加实验,并进行更深入的探索。

Accomplish More

Improve Accuracy

Fastest model iteration for better results and performance

Cost-Efficiency

Cost-Efficiency

降低数据科学基础设施成本,同时提升数据中心效率。

Cost-Efficiency

Total Cost of Ownership

Dramatically reduce data center infrastructure costs

 

Apache Spark 3.0 是采用 RAPIDS 的 GPU 加速技术

Version 3.0 是可为分析和 AI 工作负载提供完全集成和无缝的 GPU 加速的先进 Spark 版本。借助 GPU 在本地或云端利用 Spark 3.0 的强大功能,而无需更改您的代码。凭借 GPU 的突破性性能,企业和研究人员能够更频繁地训练更大的模型,最终利用 AI 的强大功能充分挖掘大数据的价值。

使用 NVIDIA GPU 训练 XGBOOST

在单节点部署和分布式部署中,GPU 加速的 XGBoost 可为领先的机器学习算法带来颠覆以往的性能。由于训练速度比 CPU 快得多,数据科学团队可以处理更大的数据集、更快地迭代,并调优模型以更大限度地提升预测精度和业务价值。

数据准备

XGBoost

端到端

立即了解如何开始使用 GPU 加速的 XGBoost

NVIDIA GPU 数据科学解决方案

了解各种不同的 NVIDIA GPU 解决方案提供的惊人加速

PC

开启机器学习之旅。

工作站

新一代数据科学工作站。

数据中心

适用于企业生产的 AI 系统。

功能多样的加速机器学习。

GPU 加速的业务的实际应用

更大限度提升机器学习工作流程的性能、生产率和投资回报率。

RAPIDS:数据科学库套件

RAPIDS 基于 NVIDIA CUDA-X AI,充分利用了超过 15 年的 NVIDIA® CUDA® 开发和机器学习专业知识。这是一款功能强大的软件,用于完全在 NVIDIA GPU 中执行端到端的数据科学训练流程,可将训练时间从数天减少到数分钟。

NVIDIA RAPIDS Flow
End-to-End Faster Speeds on RAPIDS

RAPIDS 作为 GPU 加速数据科学平台,是由 Apache Arrow 提供动力支持的新一代计算生态系统。NVIDIA 与 Ursa Labs 携手合作,将加快 Arrow 核心库的创新步伐,并有助于在分析和特征工程工作负载方面带来重大的性能提升。

– Wes McKinney,Ursa Labs 总经理,同时也是 Apache Arrow 和 Pandas 创建者

我使用 RAPIDS XGBOOST 获得了 24 倍加速,现在借助 8 块 GPU,我可以在单个节点上运行规模超大的机器学习 (ML) 工作负载,取代原先的数百个 CPU 节点。你们使 XGBOOST 实现了神速提升,真是不可思议!

– 流媒体公司

我过去遇到的瓶颈是输入/输出 (I/O)。……输入 10 家店铺的数据(约 1 百万行)需耗时 10 分钟。借助 RAPIDS,不到 3 分钟时间,我们便能输入约 6000 家店铺的数据(数百万行)。相比之下,旧有基础设施在处理该等规模的数据时会轻易占用我们 4 天时间……简直太棒了。

– 一位拥有 6000 家门店的中端市场专业零售商

RAPIDS, a GPU-accelerated data science platform, is a next-generation computational ecosystem powered by Apache Arrow. The NVIDIA collaboration with Ursa Labs will accelerate the pace of innovation in the core Arrow libraries and help bring about major performance boosts in analytics and feature engineering workloads.

- Wes McKinney, Head of Ursa Labs and Creator of Apache Arrow and Pandas

I got 24x speedup using RAPIDS XGBOOST and can now replace hundreds of CPU nodes, running my biggest ML workload on a single node with 8 GPUs. You made XGBOOST too fast!?

- Streaming Media Company

My previous bottleneck was I/O. …10 minutes to pull in data for 10 stores (about 1 million rows). With RAPIDS, we can pull in data for about 6000 stores (millions of rows) in less than 3 minutes. That scale could have easily taken us 4 days on legacy infrastructure … just plain awesome.

- A mid-market specialty retailer with 6000 stores

RAPIDS, a GPU-accelerated data science platform, is a next-generation computational ecosystem powered by Apache Arrow. The NVIDIA collaboration with Ursa Labs will accelerate the pace of innovation in the core Arrow libraries and help bring about major performance boosts in analytics and feature engineering workloads.

- Wes McKinney, Head of Ursa Labs and Creator of Apache Arrow and Pandas

I got 24x speedup using RAPIDS XGBOOST and can now replace hundreds of CPU nodes, running my biggest ML workload on a single node with 8 GPUs. You made XGBOOST too fast!?

- Streaming Media Company

My previous bottleneck was I/O. …10 minutes to pull in data for 10 stores (about 1 million rows). With RAPIDS, we can pull in data for about 6000 stores (millions of rows) in less than 3 minutes. That scale could have easily taken us 4 days on legacy infrastructure … just plain awesome.

- A mid-market specialty retailer with 6000 stores

合作伙伴生态系统

RAPIDS 面向数据科学和分析领域的高层企业领导者,并逐渐被他们接纳。

大数据、分析、可视化

Anaconda
BlazingDB
DataBricks
FastData
Graphistry
H20.ai
Kinetica
MAPR
Omni Sci
Sqream
Uber

企业数据科学平台

IBM
Oracle
SAP
Sas

存储

DellEMC
HPE
IBM
NetApp
Pure Storage

深度学习

Chainer
PyTorch

在线研讨会

在 NVIDIA 提供支持的数据科学工作站上转变 AI 开发

借助 XGBoost 提高机器学习性能和工作效率

RAPIDS 助力实现医疗保健领域的 GPU 加速数据科学

借助 RAPIDS 和 DGX-2 实现端到端数据科学加速

探索 GPU 加速的硬件解决方案