混合专家模型 (MoE) 是一种 AI 模型架构,它通过使用多个专业化的子模型 (即“专家”),实现相比单一整体模型更高效的任务处理。
混合专家模型的扩展方式,是在给定的 AI Token 上只激活网络中与之相关的那一部分。它不是在每个计算步骤都运行每个参数,而是通过一个经过训练得到的路由机制,以稀疏的方式选择应当参与计算的子网络,使模型能够在不承担全部计算成本的情况下提升容量。这种选择性激活使 MoE 架构能够将参数量推向极致,同时保持 AI 推理的实际可行性。MoE 模型由四个核心要素构建而成:
在基于 MoE 的大语言模型中,例如 DeepSeek-R1 和 gpt-oss-120B,token 首先会遍历与稠密架构相同的自注意力模块。随后 token 进入 MoE 通路:门控网络会检测注意力模块的输出结果,选择一个目标专家子集,并据此对每个 token 进行路由分配。这种稀疏路由机制会在连续的 MoE 层中重复执行,逐步塑造模型的内部表征,直至生成最终输出结果。
在训练过程中,各个专家会在其最擅长的处理领域上逐渐专精,而门控网络(或路由器)则会学习最优化的 token 路由策略。这个过程需要精细的负载均衡调控,以确保网络中所有专家都能获得同等的训练机会,避免训练过度集中于少数专家。
在推理过程中,混合专家模型可以将专家分布到多个 GPU 上,每个 GPU 仅需处理其中一小部分专家。配合高速网络,这种分布式技术可以同时提高吞吐量并降低延迟。有效的负载均衡对避免热点至关重要,需要确保不会有某个 GPU 因承载热门专家而过载,以便在全系统范围内高效利用算力、内存和网络资源。
对于 MoE 架构的大语言模型处理的每个 token,路由器必须在每层中选定一个专家子集来处理该 token。在处理完毕后,这些专家的输出结果必须先进行聚合,再进入下一层。当专家分布在多个 GPU 上时,token 的分发和聚合操作会对内存带宽造成巨大压力,因此高性能纵向扩展网络技术至关重要:它们能确保数据在 GPU 间快速高效传输,以维持吞吐量并尽可能降低延迟。
当前大多性能领先的模型采用 MoE 架构,因为即便在模型整体参数规模远大于稠密模型的情况下,它们依旧能够在相当的计算成本下,实现更高的质量。MoE 模型通过仅为每个 token 激活一小部分专业化的专家,就能够以媲美甚至优于小型稠密模型的推理成本和性能表现,实现 SOTA 性能。这正是它们能够在计算量或延迟没有同比增加的情况下,领跑各类质量基准测试的一大原因。在大规模部署中,这最终带来更优质的用户体验、更高的吞吐量,以及显著的总拥有成本 (TCO) 优势。
DeepSeek-R1 等领先的 AI 模型,正在越来越多地采用 MoE 架构。MoE 架构 让 AI 模型能够将任务分配给专业化的“专家”,从而确保每项任务仅调用与之适配的专家,让 AI 更智能、更快速、更高效。对于 DeepSeek-R1 这样的复杂 MoE 模型,其业界领先的性能源自极致的软硬件协同设计,和创新技术,如宽专家并行和 PD 分离服务,这些技术在芯片、机架和数据中心各个层级充分释放出 MoE 推理性能的每一分潜力。
了解混合专家模型如何支持语言、视觉、数据分析、医疗健康和辅助驾驶系统等领域的前沿应用,提高特定领域工作负载的精度与效率。
极致协同设计是一种协同式的方法,通过在硬件和软件之间进行高度紧密的耦合,来优化诸如 MoE 等先进 AI 模型的性能与可扩展性。这种方式在诸如 NVIDIA Blackwell 这样的新一代平台,以及 NVIDIA Dynamo 这类编排系统中得到了典型的体现:
MoE 架构的部署和训练涉及几个独特的挑战。