讲师指导的培训班
大规模部署与优化 AI 推理

学习如何设计、部署和优化大规模推理系统,以应对大语言模型迈向更深层次的测试时计算 (test-time computation)。

 

学习目标

参加本次培训,您将学到:

  • 从第一性原理出发思考 LLM 推理,包括预填充 (prefill) 与解码 (decode) 的对比、KV-Cache 扩展以及内存与计算之间的权衡
  • 在 Kubernetes 上部署基于 vLLM 的推理系统,从单体式服务开始
  • 使用 NVIDIA Dynamo 实现聚合式与非聚合式推理,并支持 KV-aware 的路由与调度
  • 暴露推理服务并跟踪 token 级别使用情况,用于监控与成本管理
  • 部署 Prometheus、Grafana、Loki 和 Tempo,以观察请求、标记和系统组件层面的推理行为
  • 使用关键指标(如 TTFT、跨 token 延迟、吞吐量和尾延迟)衡量推理性能
  • 通过实证基准比较单体式、网关式与非聚合式推理系统之间的架构权衡

在本课程中,学习者将使用 NVIDIA Dynamo 在分布式环境中部署模型。

课程大纲

议题 说明
课程介绍
(15 分钟)
  • 讲师介绍
  • 登录 DLI 学习平台
LLM 推理原理、K8s 基础与单体架构
(60 分钟)
  • 推理的物理原理 (理论)
  • 新的扩展定律
  • 理论:优化的检查项 (规模化前)
  • 架构与工具入门
网关层与韧性工程 (Resilence Engineering)
(120 分钟)
  • 理论:控制平面与可靠性模式
休息 (60 分钟)
打破单体架构
(120 分钟)
  • 解耦:预填充与解码分离 (理论)
  • MoE 挑战:密集型与稀疏型 + 专家并行
  • Dynamo 架构:KVBM + NIXL + Planner + 可观测性堆栈 (Observability Stack)
Dynamo 架构实战
(60 分钟)
  • 动手实践
评估测试和总结
(60 分钟)
  • 回顾关键要点并解答总结性问题
  • 完成评估获取 NVIDIA 培训证书
  • 填写课程反馈表
下一步

学习更多 DLI 相关课程:

 

培训详情

课程时长:8 小时,课后 6 个月内可以继续访问课件和实验 (实验资源用量有限额)

课程模式:讲师实时授课,每位学员可使用云端完全配置的实验环境进行实战练习

价格:

  • AI 培训班:每人 3500 元(提供发票)
  • 企业专属培训:联系我们,微信添加 NVIDIALearn

预备知识:

  • 命令行操作熟练
  • 具备配置文件 (例如 YAML、JSON) 使用经验
  • 熟悉容器及基于容器的工作流 (例如 Docker),并对 Kubernetes 有基本了解
  • 对大语言模型 (LLM) 推理概念有基本理解
  • 熟悉分布式计算概念,如数据并行或模型并行

使用的工具、库和框架:NVIDIA Dynamo

课程评测方式:部署并扩展一个企业级 RAG 工作流

培训证书:成功完成本课程和测试后,学员将获得 NVIDIA DLI 培训证书,证明在相关领域的能力,为职业发展提供证明

学习此课程的硬件要求:您需要一台能够上网的笔记本电脑或台式机,且能够运行最新版 Chrome 或Firefox 浏览器;我们为您提供在云端实验环境的专用访问权限

课程语言:中文

Upcoming Public Workshops

If your organization is interested in boosting and developing key skills in AI, accelerated data science, or accelerated computing, you can request instructor-led training from the NVIDIA DLI.

如果您的企业希望获取或提升在 AI、加速数据科学或加速计算方面的核心技能,NVIDIA DLI 有讲师指导的培训将是您的信心之选。

学习更多 DLI 课程

利用提示工程构建大语言模型 (LLM) 应用

构建基于 Transformer 的自然语言处理应用

构建基于大语言模型(LLM) 的应用

构建大语言模型 RAG 智能体

模型并行 —— 构建和部署大型神经网络

遇到问题?