混合专家模型的定义

混合专家模型 (MoE) 是一种 AI 模型架构，它通过使用多个专业化的子模型 (即“专家”)，实现相比单一整体模型更高效的任务处理。

工作原理
使用和应用案例
优势
挑战和解决方案
后续步骤

工作原理
使用和应用案例
优势
挑战和解决方案
后续步骤

混合专家模型的工作原理

混合专家模型的扩展方式，是在给定的 AI Token 上只激活网络中与之相关的那一部分。它不是在每个计算步骤都运行每个参数，而是通过一个经过训练得到的路由机制，以稀疏的方式选择应当参与计算的子网络，使模型能够在不承担全部计算成本的情况下提升容量。这种选择性激活使 MoE 架构能够将参数量推向极致，同时保持 AI 推理的实际可行性。MoE 模型由四个核心要素构建而成：

专家：专业化的神经子网络，针对细分行为领域做过优化。
专家稀疏性：每个 token 仅激活全体专家池中的一小部分专家。
门控网络：一个经过训练的路由器，用来决定每个输入对应激活哪些专家。
输出组合：将被选中的专家的输出进行融合，通常根据门控网络的置信度加权，形成该模块的最终计算结果。

在基于 MoE 的大语言模型中，例如 DeepSeek-R1 和 gpt-oss-120B，token 首先会遍历与稠密架构相同的自注意力模块。随后 token 进入 MoE 通路：门控网络会检测注意力模块的输出结果，选择一个目标专家子集，并据此对每个 token 进行路由分配。这种稀疏路由机制会在连续的 MoE 层中重复执行，逐步塑造模型的内部表征，直至生成最终输出结果。

专家的专业化

在训练过程中，各个专家会在其最擅长的处理领域上逐渐专精，而门控网络（或路由器）则会学习最优化的 token 路由策略。这个过程需要精细的负载均衡调控，以确保网络中所有专家都能获得同等的训练机会，避免训练过度集中于少数专家。

推理过程中的算力平衡

在推理过程中，混合专家模型可以将专家分布到多个 GPU 上，每个 GPU 仅需处理其中一小部分专家。配合高速网络，这种分布式技术可以同时提高吞吐量并降低延迟。有效的负载均衡对避免热点至关重要，需要确保不会有某个 GPU 因承载热门专家而过载，以便在全系统范围内高效利用算力、内存和网络资源。

同步专家

对于 MoE 架构的大语言模型处理的每个 token，路由器必须在每层中选定一个专家子集来处理该 token。在处理完毕后，这些专家的输出结果必须先进行聚合，再进入下一层。当专家分布在多个 GPU 上时，token 的分发和聚合操作会对内存带宽造成巨大压力，因此高性能纵向扩展网络技术至关重要：它们能确保数据在 GPU 间快速高效传输，以维持吞吐量并尽可能降低延迟。

最大化性能和质量

当前大多性能领先的模型采用 MoE 架构，因为即便在模型整体参数规模远大于稠密模型的情况下，它们依旧能够在相当的计算成本下，实现更高的质量。MoE 模型通过仅为每个 token 激活一小部分专业化的专家，就能够以媲美甚至优于小型稠密模型的推理成本和性能表现，实现 SOTA 性能。这正是它们能够在计算量或延迟没有同比增加的情况下，领跑各类质量基准测试的一大原因。在大规模部署中，这最终带来更优质的用户体验、更高的吞吐量，以及显著的总拥有成本 (TCO) 优势。

解锁高性能 MoE 推理

DeepSeek-R1 等领先的 AI 模型，正在越来越多地采用 MoE 架构。MoE 架构让 AI 模型能够将任务分配给专业化的“专家”，从而确保每项任务仅调用与之适配的专家，让 AI 更智能、更快速、更高效。对于 DeepSeek-R1 这样的复杂 MoE 模型，其业界领先的性能源自极致的软硬件协同设计，和创新技术，如宽专家并行和 PD 分离服务，这些技术在芯片、机架和数据中心各个层级充分释放出 MoE 推理性能的每一分潜力。

NVIDIA Blackwell NVL72 的极致协同设计是专家混合模型的重大突破

MoE 模型能够将模型能力提升至新境界，但高效扩展是前提。这就是实现极致机架级软硬件协同设计的意义所在。借助 NVIDIA Blackwell，AI 服务提供商能够将集群转换为智能推理系统 — 在实现 10 倍性能与收入的同时，降低单位 Token 成本。

观看视频

快速链接

在 LLM 架构中应用混合专家模型

利用宽专家并行技术在 NVIDIA 高性能计算平台上扩展大型 MoE 模型

NVIDIA 高性能计算平台和 Dynamo 如何提升 MoE 模型的推理性能

混合专家模型的使用和应用案例

了解混合专家模型如何支持语言、视觉、数据分析、医疗健康和辅助驾驶系统等领域的前沿应用，提高特定领域工作负载的精度与效率。

大语言模型

MoE 是扩展 GPT 这类模型的核心技术之一，它能够通过根据上下文仅仅激活部分专家，从而在可控的计算量下支持数十亿参数的模型训练。与传统的稠密模型不同，MoE 在推理过程中仅激活一部分专家。这种选择性激活降低了计算开销，从而实现更快的推理速度和更低的部署成本。

计算机视觉

MoE 被应用于复杂的图像分析，不同专家分别专注于目标检测、图像分割和分类等任务。

大数据分析

MoE 通过将合适的专家分配给不同的数据片段或任务，实现对异构数据的可扩展处理。

医疗健康

MoE 支持个性化治疗建议和多模态诊断的自适应系统。

辅助驾驶系统

MoE 提供感知、规划和控制等任务的专用专家，支持辅助驾驶系统的决策制定模块。

极致的协同设计对 MoE 模型的重要性

极致协同设计是一种协同式的方法，通过在硬件和软件之间进行高度紧密的耦合，来优化诸如 MoE 等先进 AI 模型的性能与可扩展性。这种方式在诸如 NVIDIA Blackwell 这样的新一代平台，以及 NVIDIA Dynamo 这类编排系统中得到了典型的体现：

强大的高密度计算和高带宽互连产品，为大规模 MoE 推理提供了所需的基础性能，从而降低数千个专家与设备之间的通信开销和延迟。
分离式服务架构和专家路由引擎自动管理复杂的多节点调度、负载均衡和故障切换，从而最大限度地减少宕机时间、提高吞吐量。
实时监控与容错基础设施为系统可靠性和前瞻优化提供支持，能够识别性能瓶颈并动态调整路由策略，以满足严格的生产级服务水平协议 (SLA) 要求。

混合专家模型的优势

专家并行

现代 MoE 基础设施能够协调数千个并行专家的协作，每个专家负责处理每个输入中的特定片段。这一设计显著加速了大语言模型的训练与推理，企业组织无需按比例增加计算资源，即可部署具有数千亿参数的模型。

节省资源

MoE 模型针对给定的输入，仅激活最相关的专家网络，从而节省大量的计算资源并降低推理成本。这种稀疏的激活机制使 MoE 模型无需为每个输入调用整个模型，即可处理海量数据集，从而比稠密模型运行速度更快、资源消耗更少。

可扩展性

MoE 的最大优势之一是可扩展性。该架构使构建具有数十亿、乃至数万亿参数的超大型模型成为可能，同时通过每次仅激活一小部分专家来控制计算负载。这意味着研究人员能够在提升模型容量的同时，无需按比例增加训练或推理时间。

增强的专业能力

在 MoE 中，每个专家会学习在其特定的领域中做到最优。其专长可能在不同的语言、文本风格 (如代码、诗歌)、模态 (如文本、图像)，甚至是同一模态下的不同子任务 (如情感分析、命名实体识别) 上。通过为特定问题类型配备专用的“子大脑”，每个专家都能够学习更加细粒度的特征，从而在其擅长的细分领域中做出更精确的决策。