Video Player is loading.
Current Time 0:00
Duration 0:00
Loaded: 0%
Stream Type LIVE
Remaining Time 0:00
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
      • Quality

      NVIDIA LLM 全栈式方案使用和优化最佳实践

      , 技术研发经理, NVIDIA
      介绍基于 NVIDIA LLM 训练,推理和部署全栈式解决方案的使用和优化的最佳实践。重点介绍 Megatron-Core、TensorRT-LLM 和 Triton Inference Server。Megatron-Core 是 NVIDIA 加速 LLM 大规模训练库,开发者可以基于它构建自己的 LLM 训练框架;TensorRT-LLM 是 NVIDIA 加速 LLM 推理的解决方案,开发者利用 TensorRT-LLM 可以在 GPU 上轻松取得 SOTA LLM 推理性能;Triton Inference Server 是 NVIDIA 部署推理服务的解决方案,它可以极大地简化基于 LLM 服务的部署,还包括了调度层的性能优化。
      活动: GTC 24
      日期: March 2024
      行业: 所有行业
      NVIDIA 技术: Cloud / Data Center GPU,DGX,Infiniband Networking,NCCL,TensorRT
      话题: Deep Learning Frameworks
      级别: 通用
      语言: 简体中文
      所在地: