NVIDIA Unified Fabric Manager (UFM)

探索融合了网络智能和分析的网络管理平台。

NVIDIA® UFM® 平台为数据中心网络管理带来新变革,它将增强的实时网络遥测与 AI 驱动的网络智能和分析相结合,支持弹性扩展的 InfiniBand 数据中心。

 

简化数据中心管理

UFM 平台可助力科研和行业数据中心操作人员对 InfiniBand 数据中心网络进行高效调配、监控、管理、预防性故障排除及维护。UFM 平台包含多个不同级别的解决方案和全面的功能集,可满足广泛的现代横向扩展数据中心需求。借助 UFM,您可以实现更高的网络资源利用率、获得竞争优势,并减少运营支出。

UFM 平台拥有健壮的图形用户界面 (GUI)

UFM 平台拥有健壮的图形用户界面 (GUI)。

通过 60 天 UFM Enterprise 软件的免费试用,了解管理、监控和维护 InfiniBand 数据中心有多简单。

亮点

UFM 平台

UFM Telemetry:实时监控

UFM Telemetry
实时监控

UFM Telemetry 平台可提供网络验证工具,监控网络性能和状况,同时还能捕获丰富的实时网络遥测信息、应用工作负载使用情况以及系统配置,并将其流式传输至本地或基于云的数据库,以便进一步分析。

 

平台:软件容器或专用设备

 

主要特性:

  • 交换机、适配器和线缆遥测

  • 系统验证

  • 网络性能测试

  • 将遥测信息流式传输到用户自建的或云上的数据库

UFM Enterprise:网络可视化和控制

UFM Enterprise
网络可视化和控制

UFM Enterprise 平台将 UFM Telemetry 的优势与增强的网络监控和管理相结合。该平台可实现自动化网络发现和调配、流量监控和拥塞发现,还支持作业调度调配,并能够与 Slurm 和 Platform Load Sharing Facility (LSF) 等行业领先的作业调度器以及云和集群管理器集成。

 

平台:软件容器或专用设备

 

主要特性:

  • 包含 UFM Telemetry 的功能

  • 自动化网络发现和验证

  • 安全线缆管理

  • 拥塞追踪以诊断流量瓶颈

  • 问题识别和解决

  • 全球软件更新

  • 与 Slurm 和 Platform LSF 集成并支持作业调度器调配

  • 高级报告和丰富的 REST API

  • 基于 Web 的丰富的 GUI

UFM Cyber-AI:网络智能和分析

UFM Cyber-AI
网络智能和分析

UFM Cyber-AI 平台可增强 UFM Telemetry 和 UFM Enterprise 的优势,提供预防性维护和网络安全,从而降低超级计算运营支出。

 

平台:本地专用 UFM Cyber-AI 设备

 

主要特性:

  • 包含 UFM Telemetry 和 UFM Enterprise 的功能

  • 分析随时间推移的性能退化或应用模式特征

  • 检测异常集群行为

  • 使用 AI 建立现象之间的相关性(可能看似不相干)

  • 报告预防性维护的警报

  • 借助持续的系统数据采集,优化可预测性

其他服务

NVIDIA 网络关怀,即监控和网络运营中心 (NOC) 服务

NVIDIA 网络关怀,即监控和网络运营中心 (NOC) 服务

定期性能分析至关重要,有助于确保您的 NVIDIA 网络解决方案与业务对象和新技术保持一致。我们的监控和 NOC 服务会对您的网络方案进行持续不断的检查和监控,识别潜在的问题,在问题发生之前对其进行甄别和解决,让您安枕无忧。最终实现更高的投资回报率,以及更低的系统维护成本。

 

相关资源

了解如何构建更高效的高性能网络。

配置您的集群

参加网络课程

准备购买?