各大网站官网的导航栏怎么做,国内网站设计案例欣赏,福州网站专业建设,莱芜网站优化团队快速回答UFM 和 OpenSM 都是 InfiniBand 网络的子网管理器#xff08;Subnet Manager#xff09;#xff0c;但两者定位不同#xff1a; UFM 是 NVIDIA 推出的综合性企业管理平台#xff0c;而 OpenSM 是一个轻量级的开源子网管理器实现。什么是子网管理器#xff08;SM&…快速回答UFM和OpenSM都是 InfiniBand 网络的子网管理器Subnet Manager但两者定位不同 UFM 是 NVIDIA 推出的综合性企业管理平台而 OpenSM 是一个轻量级的开源子网管理器实现。什么是子网管理器SM在比较 UFM 和 OpenSM 之前先了解子网管理器的作用。子网管理器是 InfiniBand 网络的大脑负责执行以下关键功能网络发现— 发现所有交换机、适配器和连接LID 分配— 为每个端口分配本地 IDLID路由表配置— 为交换机编程转发表端口状态管理— 将端口从 Down → Initialize → Armed → Active分区管理— 创建 VLAN分区以实现网络隔离注意没有正常工作的子网管理器InfiniBand 端口无法达到 Active 状态也无法传输数据。OpenSM开放子网管理器什么是 OpenSMOpenSM是一个开源的轻量级子网管理器实现了 InfiniBand 规范中的网络管理功能。 它以守护进程daemon形式运行可部署在任何 Linux 节点、交换机或专用服务器上。主要特征方面详情类型命令行工具 / 守护进程许可证开源GPL/BSD复杂度简单最小化配置界面仅命令行无图形界面资源使用非常轻量低 CPU / 内存成本免费部署可在任何 Linux 节点、交换机或专用服务器上运行功能特性OpenSM 能做什么✅ 网络发现和初始化✅ LID 分配和路由✅ 分区VLAN管理✅ 基本高可用性主 / 备✅ 多种路由算法MinHop、LASH、Fat-Tree 等OpenSM 不能做什么❌ 无图形用户界面❌ 无性能监控 / 分析❌ 无集中式日志或告警❌ 无拓扑可视化❌ 无高级诊断功能❌ 无作业 / 工作负载集成配置文件/etc/rdma/opensm.conf # 主配置文件 /etc/sysconfig/opensm # 启动参数GUID、优先级 /etc/rdma/partitions.conf # 分区定义适用场景中小型 InfiniBand 集群 100 个节点开发 / 测试环境简单的点对点或小型交换网络需要完全控制和最小开销的环境预算有限的部署UFM统一网络管理器什么是 UFMUFMUnified Fabric Manager是 NVIDIA 的企业级网络管理平台。 它是一个综合性软件套件内置子网管理器并提供广泛的监控、分析和管理功能。主要特征方面详情类型企业管理平台带 Web 界面许可证商业需要 NVIDIA 许可证复杂度功能丰富配置选项广泛界面Web GUI REST API CLI资源使用较高需要专用服务器成本需要商业许可证部署专用服务器物理机或虚拟机UFM 架构组件UFM 服务器— 核心管理引擎内置 SMUFM Web 界面— 基于浏览器的管理界面UFM 代理可选— 安装在计算节点上进行详细监控数据库— 存储历史数据、事件、拓扑额外功能OpenSM 之外监控与分析✅ 实时性能监控带宽、延迟、错误✅ 历史数据收集和趋势分析✅ 端口计数器和统计信息✅ 线缆健康监控 / 温度监控可视化与拓扑✅ 交互式网络拓扑图✅ 可视化端口状态颜色编码✅ 机架 / 机箱视图高级管理✅ 固件更新管理✅ 作业感知路由与 Slurm、PBS 等调度器集成✅ QoS 配置✅ 多网络管理✅ Prometheus / Grafana 导出器适用场景大规模 HPC 集群数百到数千个节点生产数据中心 / AI 训练集群需要详细监控和分析的环境合规 / 审计要求历史数据保留并排功能对比功能OpenSMUFM核心 SM 功能✅ 是✅ 是成本免费商业用户界面仅 CLIWeb GUI CLI API拓扑可视化❌ 否✅ 是性能监控❌ 否✅ 是历史数据❌ 否✅ 是告警❌ 否✅ 是线缆诊断❌ 否✅ 是作业集成❌ 否✅ 是多网络管理❌ 否✅ 是资源需求非常低中高设置复杂度简单复杂适合小型集群✅ 是⚠️ 过度适合大型集群⚠️ 有限✅ 是高可用性基本高级支持社区NVIDIA 商业如何识别您使用的是哪一个检查本地是否安装了 UFMrpm -qa | grep -i ufm systemctl list-units | grep -i ufm ps aux | grep ufm检查本地是否安装 / 运行了 OpenSMrpm -qa | grep -i opensm systemctl status opensm ps aux | grep opensm检查当前活跃的 SM# 查询 SM如果端口已启动 sminfo # 发现网络并查找 SM ibnetdiscover | grep -i sm常见部署模式模式说明适用场景交换机嵌入式 OpenSMOpenSM 在交换机内部运行中小型集群最常见专用 UFM 服务器UFM 在独立管理服务器上运行大型 HPC / AI 集群计算节点 OpenSMOpenSM 在某个计算节点上运行小型集群或开发环境多 SMHA主 SM 备用 SM需配置优先级高可用性生产环境针对您当前问题的建议根本原因您在 B300 节点上启动了本地 OpenSM与交换机或 UFM 服务器上的远程 SM 发生冲突 导致所有端口卡在State: Down即使Physical state: LinkUp。如果您有交换机嵌入式 SM登录交换机管理界面检查 SM 状态show sm重启 SM 服务NVIDIA/Mellanox 交换机sm stop sm start如果您有 UFM 服务器联系 UFM 管理员或登录 UFM 服务器重启 UFM 服务sudo systemctl restart ufmd如果您不确定询问集群管理员或网络团队他们应该知道有什么 SM 基础设施总结OpenSMUFM一句话轻量级、免费、基本 SM 功能企业平台SM 监控 管理 分析最适合小型集群、开发环境大型生产集群、AI 训练成本免费需要 NVIDIA 商业许可证两者都可以管理您的 InfiniBand 网络但 UFM 提供更多的可见性和控制。 您当前的问题是主 SM无论在哪里已停止正常工作需要修复远程 SM 或重新启动一个有效的 SM 来恢复网络。