This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

适用于 NVIDIA DGX 系统的认证 MLOps 软件

探索用于工作流、集群管理以及调度和编排的企业级解决方案。

简化 AI 部署和工作流程

NVIDIA DGX™-Ready 软件计划具有企业级 MLOps 解决方案，能够加速 AI 工作流程并改善 AI 基础设施的部署、可访问性和利用率。DGX-Ready 软件经过测试和认证，适用于 DGX 系统，可帮助您充分利用 AI 平台投资。

下载白皮书

DGX-Ready 软件解决方案

了解认证软件解决方案。

全部
MLOPs
集群管理和编排
调度

借助 MLOps，充分发挥 DGX 系统的强大性能

点播观看

D2iQ

D2iQ Kaptain 是一个企业就绪的端到端机器学习 (ML) 平台，由 Kubeflow 提供支持，通过打破 ML 原型和生产之间的障碍来加快上市时间和积极的投资回报率。D2iQ Kaptain 使组织能够在混合和云环境中大规模开发和部署 ML 工作负载。

作为 Kubernetes 综合性发布版，D2iQ Konvoy 使公司能够轻松利用 Kubernetes，获取开箱即用的企业级体验。Konvoy 完全基于上游开源软件而构建，并针对混合式环境和云环境，选择、集成和大规模测试了 Day 2 生产所需的附加组件。

资源

D2iQ Kubernetes 平台和 NVIDIA DGX 系统（解决方案简介）

联系信息

https://d2iq.com/kubernetes-platform

Shakudo

Shakudo 的 Hyperplane 平台是机器学习团队的端到端环境。Hyperplane 将出色的开源工具和框架整合到一个预配置和调优的平台中，专为提供最佳开发者体验而设计。Shakudo 的方法是提供单个 UI 和不断发展的多框架、多基础设施后端，以与行业中主流的机器学习堆栈保持一致。在 NVIDIA DGX 系统上安装和运行 Hyperplane 非常简单，完全支持 RAPIDS™、NVIDIA Triton™ 推理服务器、NVIDIA 多实例 GPU (MIG) 和其他强大的 NVIDIA 技术。Hyperplane 涵盖整个机器学习生命周期，从开发和实验到模型的扩展和部署以及提取、转换和加载 (ETL) 作业，再到对生产工作负载进行实验跟踪、监控和实时故障排除。

联系方式

https://shakudo.io

Canonical Ubuntu

Canonical 的 Ubuntu 平台面向 NVIDIA DGX、NVIDIA NGC™ 容器等工具进行了优化，可赋能数据科学家和工程师更高效地开展创新。Canonical Kubernetes 基于经过优化的 Ubuntu 映像构建，有助于在任何计算环境中实现无缝集成和顺畅运行。此外，Canonical 还提供用于制作 AI 解决方案以及扩展 AI 项目的端到端 MLOps 平台 Kubeflow。该平台可以灵活地添加到堆栈中，并在 NVIDIA DGX 系统上运行。

此外，Canonical Kubeflow 是一个端到端 MLOps 平台，可以添加到堆栈中，并在 NVIDIA DGX 系统上运行，用于构建 AI 解决方案和扩展项目。

资源

解决方案概览：在 NVIDIA DGX 系统上交付的 Charmed Kubernetes 解决方案概览

解决方案概览：在 NVIDIA DGX 系统上提供 Charmed Kubeflow

白皮书：使用 NVIDIA DGX 和 Kubeflow 构建高性能 ML 堆栈

联系信息

https://ubuntu.com/nvidia#get-in-touch

IBM Spectrum LSF

The IBM Spectrum^® LSF^® Suites portfolio, a complete workload management solution for demanding distributed computing environments, helps increase user productivity and hardware utilization, while decreasing management costs. LSF Suites provide support for classical high performance computing (HPC), big data, GPUs, machine learning (ML) and AI, and containerized workloads on-premises and in the cloud. Dynamic hybrid cloud bursting and intelligent data staging help organizations control costs by enabling them to pay for only what they use.

Resources

Using IBM Spectrum with NVIDIA DGX Systems

Contact

https://www.ibm.com/products/hpc-workload-management

SchedMD

SchedMD 是 Slurm 的核心开发者和服务提供商，为云和本地集群提供支持、咨询、配置、开发和训练服务。

Slurm 是市场领先的开源工作负载管理器，专为要求严苛的复杂 HPC、高吞吐量计算 (HTC) 和 AI 系统而设计。Slurm 可更大限度地提高工作负载吞吐量和可靠性，同时跨云和本地集群优化消耗并管理工作负载。

Slurm 为 NVIDIA GPU 提供关键调度：

管理类似于 CPU 的 GPU，可灵活控制请求 GPU 并将任务绑定到 GPU (GPU=一级资源)
支持 NVIDIA 多实例 GPU (MIG)
自动检测 GPU 资源
将工作负载限制为仅使用特定的已分配 GPU，不允许进程使用超出请求的 GPU
设置 CUDA_VISIBLE_DEVICES 环境变量，允许作业知道所分配的 GPU

资源

借助 Slurm 和 NVIDIA DGX 系统加速高性能和 AI 工作负载

适用于 NVIDIA DGX 系统的认证 MLOps 软件

简化 AI 部署和工作流程

DGX-Ready 软件解决方案

借助 MLOps，充分发挥 DGX 系统的强大性能

Backend.AI

联系信息

Weights & Biases

联系信息

Backend.AI

Contact

Bright Computing

联系信息

ClearML

资源

联系信息

Core Scientific

联系信息

Domino Data Lab

资源

联系信息

Determined AI

联系信息

Iguazio

联系信息

Paperspace

联系信息

Red Hat OpenShift

联系信息

Pachyderm

联系信息

D2iQ

资源

联系信息

Run:AI

资源

联系信息

Shakudo

联系方式

Canonical Ubuntu

资源

联系信息

IBM Spectrum LSF

Resources

Contact

SchedMD

资源

联系方式

SUSE

资源

联系信息

Altair

Resources

Contact