Video Player is loading.
Current Time 0:00
Duration 27:25
Loaded: 0%
Stream Type LIVE
Remaining Time 27:25
 
1x
    • Chapters
    • descriptions off, selected
    • subtitles off, selected
    • default, selected

    NVIDIA LLM 全栈式方案使用和优化最佳实践

    , 技术研发经理, NVIDIA
    介绍基于 NVIDIA LLM 训练,推理和部署全栈式解决方案的使用和优化的最佳实践。重点介绍 Megatron-Core、TensorRT-LLM 和 Triton Inference Server。Megatron-Core 是 NVIDIA 加速 LLM 大规模训练库,开发者可以基于它构建自己的 LLM 训练框架;TensorRT-LLM 是 NVIDIA 加速 LLM 推理的解决方案,开发者利用 TensorRT-LLM 可以在 GPU 上轻松取得 SOTA LLM 推理性能;Triton Inference Server 是 NVIDIA 部署推理服务的解决方案,它可以极大地简化基于 LLM 服务的部署,还包括了调度层的性能优化。
    活动: GTC 24
    日期: March 2024
    行业: 所有行业
    NVIDIA 技术: Cloud / Data Center GPU,DGX,Infiniband Networking,NCCL,TensorRT
    话题: Deep Learning Frameworks
    级别: 通用
    语言: 简体中文
    所在地: