Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected

      构建以 Megatron-Core 为核心的大语言模型训练加速生态

      , Senior Staff Engineer, Alibaba Cloud
      Megatron-Core 是 NVIDIA 开发的用于训练超大规模 Transformer 模型的分布式框架,具有出色的分布式性能,是训练具有数千亿或更多参数的大语言模型的必备工具。Pai-Megatron-patch 是阿里云旗下 PAI 平台开发的大语言模型训练工具包,包含基于 Megatron-Core构建高效 LLM 训练系统的关键组件,如 mcore 和 Huggingface 之间的双向 ckpt 转换,弥合 mcore 和 Huggingface 生态系统之间的差距;实现了 Distributed Optimizer CPU 卸载技术,进一步降低了大模型训练的成本;还开发了给定硬件资源条件下的自动超参数优化工具,提高了框架的可用性等功能。在此基础上,它提供了训练各种开源大语言模型的最佳实践。
      活动: GTC 25
      日期: March 2025
      行业: Cloud Services
      级别: 通用
      话题: 模型 / 库 / 框架 - 深度学习框架
      语言: 简体中文
      所在地: