探索用于工作流、集群管理以及调度和编排的企业级解决方案。
NVIDIA DGX™-Ready 软件计划具有企业级 MLOps 解决方案,能够加速 AI 工作流程并改善 AI 基础设施的部署、可访问性和利用率。DGX-Ready 软件经过测试和认证,适用于 DGX 系统,可帮助您充分利用 AI 平台投资。
了解认证软件解决方案。
通过 Lablup Backend.AI 和 NVIDIA DGX 系统体验便捷强大的 AI 开发。Backend.AI 可让您轻松地充分利用 NVIDIA 加速计算(包括 DGX 系统)的强大计算能力。
Weights & Biases 是面向机器学习从业者的开发者堆栈。使用轻巧、可互操作的工具,调试和重现机器学习项目的整个生命周期。W&B 受到超过 15 万名机器学习从业者的信赖,帮助其开发更好的医疗技术、更安全的自动驾驶汽车、更具可持续性的农业以及进行更先进的研究。
Experience convenient and powerful AI development through Lablup Backend.AI and NVIDIA DGX systems. Backend.AI makes it hassle-free to take full advantage of the enormous computing power of NVIDIA accelerated computing, including DGX systems.
Bright Computing 软件使不同成为可能。快速构建和管理异构高性能集群,托管从核心到边缘再到云的高性能计算、机器学习和分析应用程序。
ClearML 提供基于 DGX 系统的管理和编排堆栈。借助 ClearML,团队可以更轻松地管理其工作负载、更好地了解和控制其数据和模型,并有效开展协作。
借助 ClearML Orchestrate,团队可以利用一个或多个 NVIDIA DGX A100 系统为远程虚拟开发环境创建虚拟集群,并支持可扩展的训练工作负载。
借助 NVIDIA DGX Station™ A100、NVIDIA Clara™ Imaging 和 ClearML 简化医疗成像工作流程(解决方案概览)
Core Scientific 是人工智能和区块链技术领域的领导者,提供出色的基础设施和软件解决方案。
Core Scientific 的 Plexus 为数据科学家提供单一界面,让他们可以使用 NVIDIA DGX 系统(内部私有云或托管设施上)上 NGC™ 容器目录中的 GPU 优化 AI 软件来管理、编排和部署工作负载。
Domino 数据科学平台将整个企业的数据科学工作和基础设施集中在一起,从而更快、更有效地协作构建、训练、部署和管理模型。借助 Domino,数据科学家可以加快创新速度,团队可以重复利用工作成果并开展更多协作,IT 团队则可以管理和监管基础设施
Determined 是一个开源深度学习训练平台,支持快速轻松地构建模型。Determined 让您可以:
Iguazio 数据科学平台将 AI 项目转化为真实的商业成果。借助 MLOps 和机器学习流程的端到端自动化,加快和扩展 AI 应用程序的开发、部署和管理。
Paperspace Gradient 可加速和扩展生产就绪型机器学习和深度学习模型的开发和部署。该平台在业内率先推出的全面持续集成和持续部署 (CI/CD) 引擎上运行,支持构建、训练和部署深度学习模型。Paperspace 出色的机器学习工具和方法为当今的现代企业提供多云、内部私有云和混合环境支持。它还支持 NVIDIA NGC,并且针对 NVIDIA DGX 系统进行了优化。
Red Hat OpenShift 是一种开放式混合云平台:它具有强大的功能,让您可以构建任何内容并灵活使用,从而随时随地工作。
随着 OpenShift 加入 DGX-Ready 软件计划,客户可以在 NVIDIA DGX 系统集群中访问由 OpenShift 认证且经过验证和测试的企业级软件解决方案。这有助于简化 AI 基础设施的部署、管理和扩展,同时生态系统合作伙伴可以利用 OpenShift,以更具可扩展性、可重复性的方式为客户开发和交付解决方案。
Pachyderm 具有的数据层可让机器学习 (ML) 团队将其投入生产并扩展机器学习生命周期。Pachyderm 先进的数据版本控制经认证可与 NVIDIA DGX™ 系统配合使用,可为流程和数据沿袭团队提供数据驱动的自动化、PB 级可扩展性和端到端可再现性。使用 Pachyderm 的团队可以加快推动 ML 项目上市,降低数据处理和存储成本,并更容易满足监管合规要求。
D2iQ Kaptain 是一个企业就绪的端到端机器学习 (ML) 平台,由 Kubeflow 提供支持,通过打破 ML 原型和生产之间的障碍来加快上市时间和积极的投资回报率。D2iQ Kaptain 使组织能够在混合和云环境中大规模开发和部署 ML 工作负载。
作为 Kubernetes 综合性发布版,D2iQ Konvoy 使公司能够轻松利用 Kubernetes,获取开箱即用的企业级体验。Konvoy 完全基于上游开源软件而构建,并针对混合式环境和云环境,选择、集成和大规模测试了 Day 2 生产所需的附加组件。
D2iQ Kubernetes 平台和 NVIDIA DGX 系统(解决方案简介)
Run:AI 率先打造了用于编排和加速 AI 的计算管理平台。通过集中化和虚拟化 GPU 计算资源,Run:AI 提供了对资源优先级和分配的可见性和控制力,同时简化了工作流程,并为数据科学家消除了基础设施方面的麻烦。这可确保将 AI 项目与业务目标相对应,并显著提高数据科学团队的工作效率,从而在资源受限的情况下构建和训练并发模型。
构建出色的 AI 基础设施栈,加速数据科学发展(点播式网络会议)
Shakudo's Hyperplane platform is an end-to-end environment for machine learning teams. Hyperplane combines the best open-source tools and frameworks into a single preconfigured and tuned platform that’s designed for the best developer experience. Shakudo’s approach is to provide a single UI and a continuously evolving multi-framework, multi-infrastructure backend that aligns to the prevailing machine learning stacks in the industry. It’s straightforward to get up and running with Hyperplane on NVIDIA DGX systems with full support for RAPIDS™, NVIDIA Triton™ Inference Server, NVIDIA Multi-Instance GPU (MIG), and other powerful NVIDIA technologies. Hyperplane covers the entire machine learning life cycle, from development and experimentations, through scaling and deployment of models and extract, transform, and load (ETL) jobs, to experiment tracking, monitoring, and real-time troubleshooting of production workloads.
Canonical’s Ubuntu is an optimized platform for NVIDIA DGX, NVIDIA EGX™, NVIDIA NGC™ containers, and more, enabling data scientists and engineers to innovate more productively. Canonical Kubernetes builds on optimized Ubuntu images and provides unparalleled integrations and operations for any compute environment. A hardened, conformant, multi-cloud Kubernetes with full lifecycle automation, it provides developers with primitives and abstractions, enabling them to focus on crafting the latest AI solutions on NVIDIA DGX systems.
http://www.microk8s.io/docs/nvidia-dgx
http://www.ubuntu.com/kubernetes/docs/nvidia-dgx
The IBM Spectrum® LSF® Suites portfolio, a complete workload management solution for demanding distributed computing environments, helps increase user productivity and hardware utilization, while decreasing management costs. LSF Suites provide support for classical high performance computing (HPC), big data, GPUs, machine learning (ML) and AI, and containerized workloads on-premises and in the cloud. Dynamic hybrid cloud bursting and intelligent data staging help organizations control costs by enabling them to pay for only what they use.
Using IBM Spectrum with NVIDIA DGX Systems
SchedMD is the core developer and services provider for Slurm, providing support, consulting, configuration, development, and training services to cloud and on-premises clusters. Slurm is the market-leading open source workload manager designed for the most complex and demanding HPC, high throughput computing (HTC), and AI systems. Slurm maximizes workload throughput and reliability, while optimizing consumption and managing workloads across cloud and on-premises clusters.
Slurm provides key scheduling to NVIDIA GPUs:
Accelerating High Performance and AI Workloads with Slurm and NVIDIA DGX Systems
Altair’s flagship workload management and job scheduling solution, Altair® PBS Professional® , is optimized for performance in GPU environments, including NVIDIA DGX systems. PBS Professional includes support for scheduling large AI and HPC workloads on multi-node DGX clusters as well as individual GPU workloads utilizing multi-instance GPU (MIG).
Altair PBS Professional Support for NVIDIA DGX Systems