Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      GLake:大模型训练和推理的显存优化探索

      , Software Director, Ant Group
      , Software Engineer, Ant Group
      大模型需要巨大的 GPU 显存。为缓解显存不足 OOM 问题并实现高性能和易用性,我们将介绍一系列基于 CUDA 虚拟内存管理(VMM)的显存优化方案,包括训练和推理。

      1. 对于训练,我们分享 GMLake(ASPLOS2024)来减少显存碎片。它动态地将非连续物理显存融合成连续的虚拟地址且对模型透明,在八个模型上的评测表明,GMLake 可每卡节省显存 9.2GB~25GB。
      2. 对于推理,我们介绍 vTensor 和 LayerKV。前者是基于 VMM API 而新派生的 PyTorch tensor 数据结构,它可替代 vLLM PagedAttention,使得集成或定制新的 attention kernel 变得非常简单,例如只需修改 3 行代码可在 vLLM 中支持新的稀疏或量化 kernel。后者重点优化了显存不足导致的排队和首字延迟激增问题,在高负载下可将首字优化3X~69X 包括 TP 并行和 PD 分离。
      活动: GTC 25
      日期: March 2025
      话题: AI Platforms / Deployment - AI Inference / Inference Microservices
      行业: 所有行业
      NVIDIA 技术: CUDA,cuBLAS,NCCL
      级别: 技术 - 高级
      语言: 简体中文
      所在地: