NVIDIA Unified Fabric Manager (UFM)

探索融合了网络智能和分析的网络管理平台。

NVIDIA® UFM® 平台为数据中心网络管理带来新变革,它将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,支持弹性扩展的 InfiniBand 数据中心。

 

数据中心管理更加简便

UFM 平台可助力科研和企业数据中心操作人员对 InfiniBand 数据中心网络进行高效调配、监控、管理以及预防性故障排除并进行维护。UFM 平台包含多个不同级别的解决方案和丰富的功能组合,可满足广泛的现代弹性扩展数据中心的需求。使用 UFM,您可以实现更高的网络资源利用率,充分发挥网络的先进特性,减少整体运营支出。

UFM 平台拥有健壮的图形用户界面 (GUI)

UFM 平台拥有健壮的图形用户界面 (GUI)。

亮点

UFM 平台

UFM Telemetry:实时监控

UFM Telemetry
实时监控

UFM Telemetry 平台能够提供网络验证工具,监控网络性能和状况,同时还能捕获丰富的实时网络遥测信息、应用程序工作负载使用情况以及系统配置,并可以通过流式传输到用户自建的或云上的数据库,以便做进一步分析。

 

运行平台:软件容器或专用一体机

 

主要特性:

  • 交换机、适配器和线缆遥测

  • 系统验证

  • 网络性能测试

  • 将遥测信息流式传输到用户自建的或云上的数据库

UFM Enterprise:网络可视化和控制

UFM Enterprise
网络可视化和控制

UFM Enterprise 平台在 UFM Telemetry 的基础上,增加了增强的网络监控和管理功能。它实现了自动化网络发现和调配、流量监控和拥塞发现。还支持作业调度调配,并能够与 Slurm 和 Platform Load Sharing Facility (LSF) 等先进的作业调度器以及云和集群管理器等进行集成。

 

运行平台:软件容器或专用一体机

 

主要特性:

  • 包含 UFM Telemetry 的功能

  • 自动化网络发现和验证

  • 安全线缆管理

  • 拥塞追踪以诊断流量瓶颈

  • 问题识别和解决

  • 全球软件更新

  • 与 Slurm 和 Platform LSF 集成并支持作业调度器调配

  • 高级报告和丰富的 REST API

  • 基于 Web 的丰富的 GUI

UFM Cyber-AI:网络智能和分析

UFM Cyber-AI
网络智能和分析

UFM Cyber-AI 平台在 UFM Telemetry 和 UFM Enterprise 的基础上进一步增强,进行预防性维护和网络安全,从而降低超级计算运营支出。

 

运行平台:专用的 UFM Cyber-AI 一体机

 

主要特性:

  • 包含 UFM Telemetry 和 UFM Enterprise 的功能

  • 分析随时间推移的性能退化或应用模式特征

  • 检测异常集群行为

  • 使用 AI 建立现象之间的相关性(可能看似不相干)

  • 报告预防性维护的警报

  • 借助持续的系统数据采集,优化可预测性

其他服务

NVIDIA 网络关怀,即监控和网络运营中心 (NOC) 服务

NVIDIA 网络关怀,即监控和网络运营中心 (NOC) 服务

定期性能分析至关重要,有助于确保您的 NVIDIA 网络解决方案与业务对象和新技术保持一致。我们的监控和 NOC 服务会对您的网络方案进行持续不断的检查和监控,识别潜在的问题,在问题发生之前对其进行甄别和解决,让您安枕无忧。最终实现更高的投资回报率,以及更低的系统维护成本。

 

相关资源

了解如何构建更高效的高性能网络。

配置您的集群

参加网络课程

准备购买?