学习如何设计、部署和优化大规模推理系统,以应对大语言模型迈向更深层次的测试时计算 (test-time computation)。
学习目标
参加本次培训,您将学到:
- 从第一性原理出发思考 LLM 推理,包括预填充 (prefill) 与解码 (decode) 的对比、KV-Cache 扩展以及内存与计算之间的权衡
- 在 Kubernetes 上部署基于 vLLM 的推理系统,从单体式服务开始
- 使用 NVIDIA Dynamo 实现聚合式与非聚合式推理,并支持 KV-aware 的路由与调度
- 暴露推理服务并跟踪 token 级别使用情况,用于监控与成本管理
- 部署 Prometheus、Grafana、Loki 和 Tempo,以观察请求、标记和系统组件层面的推理行为
- 使用关键指标(如 TTFT、跨 token 延迟、吞吐量和尾延迟)衡量推理性能
- 通过实证基准比较单体式、网关式与非聚合式推理系统之间的架构权衡
在本课程中,学习者将使用 NVIDIA Dynamo 在分布式环境中部署模型。
