Name: NVIDIA LLM 全栈式方案使用和优化最佳实践 SE63216 | GTC 2024 | NVIDIA On-Demand
Uploaded: 2024-03-18T19:30:00Z
Duration: 1645 s
Description: 介绍基于 NVIDIA LLM 训练，推理和部署全栈式解决方案的使用和优化的最佳实践。重点介绍 Megatron-Core、TensorRT-LLM 和 Triton Inference Server。Megatron-Core 是 NVIDIA 加速 LLM 大规模训练库，开发者可以基于它构建自己的 LLM

Video Player is loading.

Current Time 0:00

Duration 0:00

Loaded: 0%

Stream Type LIVE

Remaining Time 0:00

详情

字幕

介绍基于 NVIDIA LLM 训练，推理和部署全栈式解决方案的使用和优化的最佳实践。重点介绍 Megatron-Core、TensorRT-LLM 和 Triton Inference Server。Megatron-Core 是 NVIDIA 加速 LLM 大规模训练库，开发者可以基于它构建自己的 LLM 训练框架；TensorRT-LLM 是 NVIDIA 加速 LLM 推理的解决方案，开发者利用 TensorRT-LLM 可以在 GPU 上轻松取得 SOTA LLM 推理性能；Triton Inference Server 是 NVIDIA 部署推理服务的解决方案，它可以极大地简化基于 LLM 服务的部署，还包括了调度层的性能优化。

活动: GTC 24

日期: March 2024

行业: 所有行业

NVIDIA 技术: Cloud / Data Center GPU,DGX,Infiniband Networking,NCCL,TensorRT

话题: Deep Learning Frameworks

级别: 通用

语言: 简体中文

所在地: