Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      基于 NVIDIA Megatron Core 的 MoE LLM 实现和训练优化

      , 资深算法专家, 阿里云
      以 ChatGPT 为代表的大语言模型(LLM)是当下实现通用人工智能最有潜力的技术路线。大模型在展现出惊人效果的同时,其高昂的训练和推理成本,一直是个巨大的挑战。模型稀疏化能有效降低训练和推理过程中的计算和存储消耗。近期以 Mixtral 为代表的 MoE(多专家混合)大模型,证明了稀疏 MoE 技术路线能够大幅降低训练和推理计算量,提升推理速度,同时模型效果能达到甚至超过同等规模的稠密模型。本次报告主要介绍阿里云人工智能平台 PAI (Platform of AI) 和 NVIDIA Megatron 在大规模 MoE 训练方面的合作研究工作,基于 Megatron Core 框架,实现了 MoE 训练工具,验证了工具的稳定性和收敛性,并在下游任务上验证了 MoE 大模型训练的效果。基于 PAI-Megatron-Patch 模型转换库,PAI 将上述 MoE 模型训练工具集成到阿里云灵骏大模型产品,极大地降低了用户在云端构建和优化 AI 模型的技术门槛。
      活动: GTC 24
      日期: March 2024
      NVIDIA 技术: Cloud / Data Center GPU,HGX
      行业: Cloud Services
      级别: 中级技术
      话题: Large Language Models (LLMs)
      语言: 简体中文
      所在地: