Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected

      使用投机采样和计算通信 Overlap 提升 LLM 推理效率

      , Sr. Software Engineer, Baichuan, Inc.
      , Team Lead, Baichuan, Inc.
      介绍百川智能自研投机采样(Clover 系列模型)与计算通信 overlap 在大模型推理优化上的设计到落地流程。
      1. 使用投机采样优化 decode 阶段效率问题,通过设计高命中率低成本的模型结构及动态的候选 token tree 结构,提升投机采样有效性;
      2. 采用计算通信 overlap 优化通信占比大场景下 prefill 效率问题,通过创新的序列内 overlap 提升计算利用率,从而降低 prefill 阶段耗时。
      活动: GTC 25
      日期: March 2025
      话题: AI Platforms / Deployment - AI Inference / Inference Microservices
      NVIDIA 技术: CUDA,NCCL,NSight Systems
      级别: 通用
      行业: HPC / 科学计算
      语言: 简体中文
      所在地: