Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      美团 PyTorch 量化工具——设计哲学、核心特性及性能基准

      , 资深技术专家, 美团
      随着云计算负载的持续增长,降低神经网络模型部署成本的需求变得日益迫切。模型量化作为一项关键的压缩技术,可以使模型运行更快、体积更小,并且更具成本效益。为此,我们开发了一款即插即用的量化工具包——美团 PyTorch 量化工具(MTPQ),该工具包旨在利用 NVIDIA 的 TensorRT 以及 TensorRT-LLM 生态,实现模型在 GPU 上极致的推理性能。我们将介绍这个工具包的设计理念和主要功能,并分享其在工业界广泛使用的视觉模型以及大型语言模型上的性能基准测试结果。
      活动: GTC 24
      日期: 2024 年 3 月
      话题: AI 推理
      NVIDIA 技术: Cloud / Data Center GPU,HGX,TensorRT,Triton
      行业: Consumer Internet
      级别: 通用
      语言: 简体中文
      所在地: