Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      面向海量模型业务场景的文生图高效推理加速解决方案

      , AI Infrastructure Technical Expert, Alibaba Cloud
      , AI Infrastructure Technical Expert, Alibaba
      文生图掀起了一股 AI 创作浪潮,是当下 AIGC 赛道最受关注的应用方向之一。然而,这些服务的推理部署上线面临着诸多挑战,例如面向消费者 (ToC) 场景下,处理大量用户自定义模型时所带来的高昂编译优化成本;较长的图片生成时间导致的用户体验下降;频繁加载/切换不同模型导致的 GPU 资源利用效率低下等问题。

      为了应对这些挑战,我们推出了一套基于 TensorRT 的文生图推理加速解决方案。利用 cuBLAS、cuDNN、cuTLASS 和 CUDA 算子融合技术,在各类算子中都实现了极致的性能。我们还设计了高效的权重重排、权重更新和线上模型免编译等技术,实现推理服务期间快速的模型优化与切换。总体而言,相较于未定制优化的社区 PyTorch 版本,我们在各种 NVIDIA GPU 上实现了最高 1.8 倍的加速比,业务成本降低多达 40%,同时显著改善了 AIGC 用户的体验。
      活动: GTC 25
      日期: March 2025
      话题: AI Platforms / Deployment - AI Inference / Inference Microservices
      行业: Cloud Services
      级别: 通用
      NVIDIA 技术: NGC,CUDA,NSight,TensorRT,Hopper,cuBLAS,cuDDN,cuGraph,NSight Comute,NSight Systems
      语言: 简体中文
      所在地: