混合专家模型的定义

混合专家模型 (MoE) 是一种 AI 模型架构,它通过使用多个专业化的子模型 (即“专家”),实现相比单一整体模型更高效的任务处理。

混合专家模型的工作原理

混合专家模型的扩展方式,是在给定的 AI Token 上只激活网络中与之相关的那一部分。它不是在每个计算步骤都运行每个参数,而是通过一个经过训练得到的路由机制,以稀疏的方式选择应当参与计算的子网络,使模型能够在不承担全部计算成本的情况下提升容量。这种选择性激活使 MoE 架构能够将参数量推向极致,同时保持 AI 推理的实际可行性。MoE 模型由四个核心要素构建而成:

  • 专家:专业化的神经子网络,针对细分行为领域做过优化。
  • 专家稀疏性:每个 token 仅激活全体专家池中的一小部分专家。
  • 门控网络:一个经过训练的路由器,用来决定每个输入对应激活哪些专家。
  • 输出组合:将被选中的专家的输出进行融合,通常根据门控网络的置信度加权,形成该模块的最终计算结果。

在基于 MoE 的大语言模型中,例如 DeepSeek-R1 和 gpt-oss-120B,token 首先会遍历与稠密架构相同的自注意力模块。随后 token 进入 MoE 通路:门控网络会检测注意力模块的输出结果,选择一个目标专家子集,并据此对每个 token 进行路由分配。这种稀疏路由机制会在连续的 MoE 层中重复执行,逐步塑造模型的内部表征,直至生成最终输出结果。

专家的专业化

在训练过程中,各个专家会在其最擅长的处理领域上逐渐专精,而门控网络(或路由器)则会学习最优化的 token 路由策略。这个过程需要精细的负载均衡调控,以确保网络中所有专家都能获得同等的训练机会,避免训练过度集中于少数专家。

推理过程中的算力平衡

在推理过程中,混合专家模型可以将专家分布到多个 GPU 上,每个 GPU 仅需处理其中一小部分专家。配合高速网络,这种分布式技术可以同时提高吞吐量并降低延迟。有效的负载均衡对避免热点至关重要,需要确保不会有某个 GPU 因承载热门专家而过载,以便在全系统范围内高效利用算力、内存和网络资源。

同步专家

对于 MoE 架构的大语言模型处理的每个 token,路由器必须在每层中选定一个专家子集来处理该 token。在处理完毕后,这些专家的输出结果必须先进行聚合,再进入下一层。当专家分布在多个 GPU 上时,token 的分发和聚合操作会对内存带宽造成巨大压力,因此高性能纵向扩展网络技术至关重要:它们能确保数据在 GPU 间快速高效传输,以维持吞吐量并尽可能降低延迟。

最大化性能和质量

当前大多性能领先的模型采用 MoE 架构,因为即便在模型整体参数规模远大于稠密模型的情况下,它们依旧能够在相当的计算成本下,实现更高的质量。MoE 模型通过仅为每个 token 激活一小部分专业化的专家,就能够以媲美甚至优于小型稠密模型的推理成本和性能表现,实现 SOTA 性能。这正是它们能够在计算量或延迟没有同比增加的情况下,领跑各类质量基准测试的一大原因。在大规模部署中,这最终带来更优质的用户体验、更高的吞吐量,以及显著的总拥有成本 (TCO) 优势。

解锁高性能 MoE 推理

DeepSeek-R1 等领先的 AI 模型,正在越来越多地采用 MoE 架构。MoE 架构 让 AI 模型能够将任务分配给专业化的“专家”,从而确保每项任务仅调用与之适配的专家,让 AI 更智能、更快速、更高效。对于 DeepSeek-R1 这样的复杂 MoE 模型,其业界领先的性能源自极致的软硬件协同设计,和创新技术,如宽专家并行和 PD 分离服务,这些技术在芯片、机架和数据中心各个层级充分释放出 MoE 推理性能的每一分潜力。

NVIDIA Blackwell NVL72 的极致协同设计是专家混合模型的重大突破

MoE 模型能够将模型能力提升至新境界,但高效扩展是前提。这就是实现极致机架级软硬件协同设计的意义所在。借助 NVIDIA Blackwell,AI 服务提供商能够将集群转换为智能推理系统 — 在实现 10 倍性能与收入的同时,降低单位 Token 成本。

混合专家模型的使用和应用案例

了解混合专家模型如何支持语言、视觉、数据分析、医疗健康和辅助驾驶系统等领域的前沿应用,提高特定领域工作负载的精度与效率。

大语言模型

MoE 是扩展 GPT 这类模型的核心技术之一,它能够通过根据上下文仅仅激活部分专家,从而在可控的计算量下支持数十亿参数的模型训练。与传统的稠密模型不同,MoE 在推理过程中仅激活一部分专家。这种选择性激活降低了计算开销,从而实现更快的推理速度和更低的部署成本。

计算机视觉

MoE 被应用于复杂的图像分析,不同专家分别专注于目标检测、图像分割和分类等任务。

大数据分析

MoE 通过将合适的专家分配给不同的数据片段或任务,实现对异构数据的可扩展处理。

医疗健康

MoE 支持个性化治疗建议和多模态诊断的自适应系统。

辅助驾驶系统

MoE 提供感知、规划和控制等任务的专用专家,支持辅助驾驶系统的决策制定模块。

极致的协同设计对 MoE 模型的重要性

极致协同设计是一种协同式的方法,通过在硬件和软件之间进行高度紧密的耦合,来优化诸如 MoE 等先进 AI 模型的性能与可扩展性。这种方式在诸如 NVIDIA Blackwell 这样的新一代平台,以及 NVIDIA Dynamo 这类编排系统中得到了典型的体现:

  • 强大的高密度计算和高带宽互连产品,为大规模 MoE 推理提供了所需的基础性能,从而降低数千个专家与设备之间的通信开销和延迟。
  • 分离式服务架构和专家路由引擎自动管理复杂的多节点调度、负载均衡和故障切换,从而最大限度地减少宕机时间、提高吞吐量。
  • 实时监控与容错基础设施为系统可靠性和前瞻优化提供支持,能够识别性能瓶颈并动态调整路由策略,以满足严格的生产级服务水平协议 (SLA) 要求。

混合专家模型的优势

专家并行

现代 MoE 基础设施能够协调数千个并行专家的协作,每个专家负责处理每个输入中的特定片段。这一设计显著加速了大语言模型的训练与推理,企业组织无需按比例增加计算资源,即可部署具有数千亿参数的模型。

节省资源

MoE 模型针对给定的输入,仅激活最相关的专家网络,从而节省大量的计算资源并降低推理成本。这种稀疏的激活机制使 MoE 模型无需为每个输入调用整个模型,即可处理海量数据集,从而比稠密模型运行速度更快、资源消耗更少。

可扩展性

MoE 的最大优势之一是可扩展性。该架构使构建具有数十亿、乃至数万亿参数的超大型模型成为可能,同时通过每次仅激活一小部分专家来控制计算负载。这意味着研究人员能够在提升模型容量的同时,无需按比例增加训练或推理时间。

增强的专业能力

在 MoE 中,每个专家会学习在其特定的领域中做到最优。其专长可能在不同的语言、文本风格 (如代码、诗歌)、模态 (如文本、图像),甚至是同一模态下的不同子任务 (如情感分析、命名实体识别) 上。通过为特定问题类型配备专用的“子大脑”,每个专家都能够学习更加细粒度的特征,从而在其擅长的细分领域中做出更精确的决策。

MoE 模型的挑战与解决方案

MoE 架构的部署和训练涉及几个独特的挑战。

路由的不可微性

门控 (路由) 功能可能是不可微的,这会增加端到端学习的难度。

解决方案

  • 解决方案包括使用可微的软性近似方法,或基于强化学习的路由机制。

专家不平衡 (负载均衡问题)

存在可能某些专家被过度使用,而其他专家却不被访问 (专家塌缩) 的风险,从而导致低效和专家专业能力欠佳。

解决方案

  • 负载均衡损失和随机路由机制,有助于将数据更均匀地分布在各个专家之间,从而增强模型的健壮性和泛化能力。

训练稳定性和过拟合

大规模 MoE 模型在小型数据集上可能出现训练不稳定或过拟合问题。

解决方案

  • 解决方案包括参数冻结、采用大规模多样化训练数据集,以及对门控网络进行正则化。

计算开销

稀疏 MoE 虽然降低了单位推理成本,但协调众多混合专家 (尤其在分布式硬件上) 增加了复杂度。

解决方案

  • 动态路由和高效通信协议的进步正在缓解这一问题。

后续步骤

借助 NVIDIA Blackwell 架构加速 AI 扩展

借助基于 NVIDIA Blackwell 架构构建的极致协同设计和高性能计算,扩展您的混合专家模型训练和推理。

了解 NVIDIA AI 推理

了解 NVIDIA 推理平台,它包括 NVIDIA Dynamo、TensorRT™-LLM,为提升 MoE 模型的大规模推理性能提供全栈解决方案。

及时了解 NVIDIA AI 推理新闻

注册以接收 NVIDIA 发布的最新 AI 推理新闻资讯、更新以及更多内容。