This site requires Javascript in order to view all its content. Please enable Javascript in order to access all the functionality of this web site. Here are the instructions how to enable JavaScript in your web browser.

讲师指导的培训班
大规模部署与优化 AI 推理

报名 AI 培训班

购买和咨询企业专属培训

学习如何设计、部署和优化大规模推理系统，以应对大语言模型迈向更深层次的测试时计算 (test-time computation)。

学习目标

参加本次培训，您将学到：

从第一性原理出发思考 LLM 推理，包括预填充 (prefill) 与解码 (decode) 的对比、KV-Cache 扩展以及内存与计算之间的权衡
在 Kubernetes 上部署基于 vLLM 的推理系统，从单体式服务开始
使用 NVIDIA Dynamo 实现聚合式与非聚合式推理，并支持 KV-aware 的路由与调度
暴露推理服务并跟踪 token 级别使用情况，用于监控与成本管理
部署 Prometheus、Grafana、Loki 和 Tempo，以观察请求、标记和系统组件层面的推理行为
使用关键指标（如 TTFT、跨 token 延迟、吞吐量和尾延迟）衡量推理性能
通过实证基准比较单体式、网关式与非聚合式推理系统之间的架构权衡

在本课程中，学习者将使用 NVIDIA Dynamo 在分布式环境中部署模型。

课程大纲

议题	说明
课程介绍 (15 分钟)	讲师介绍登录 DLI 学习平台
LLM 推理原理、K8s 基础与单体架构 (60 分钟)	推理的物理原理 (理论) 新的扩展定律理论：优化的检查项 (规模化前) 架构与工具入门
网关层与韧性工程 (Resilence Engineering) (120 分钟)	理论：控制平面与可靠性模式
休息 (60 分钟)
打破单体架构 (120 分钟)	解耦：预填充与解码分离 (理论) MoE 挑战：密集型与稀疏型 + 专家并行 Dynamo 架构：KVBM + NIXL + Planner + 可观测性堆栈 (Observability Stack)
Dynamo 架构实战 (60 分钟)	动手实践
评估测试和总结 (60 分钟)	回顾关键要点并解答总结性问题完成评估获取 NVIDIA 培训证书填写课程反馈表
下一步	学习更多 DLI 相关课程：深度学习基础 —— 理论与实践入门构建基于 Transformer 的自然语言处理应用构建基于大语言模型 (LLM) 的应用为大语言模型添加新知识构建大语言模型 RAG 智能体在生产环境大规模部署 RAG 工作流利用提示工程构建大语言模型 (LLM) 应用使用多模态模型构建 AI 智能体

培训详情

课程时长：8 小时，课后 6 个月内可以继续访问课件和实验 (实验资源用量有限额)

课程模式：讲师实时授课，每位学员可使用云端完全配置的实验环境进行实战练习

价格：

AI 培训班：每人 3500 元（提供发票）
企业专属培训：联系我们，微信添加 NVIDIALearn

预备知识：

命令行操作熟练
具备配置文件 (例如 YAML、JSON) 使用经验
熟悉容器及基于容器的工作流 (例如 Docker)，并对 Kubernetes 有基本了解
对大语言模型 (LLM) 推理概念有基本理解
熟悉分布式计算概念，如数据并行或模型并行

使用的工具、库和框架：NVIDIA Dynamo

课程评测方式：部署并扩展一个企业级 RAG 工作流

培训证书：成功完成本课程和测试后，学员将获得 NVIDIA DLI 培训证书，证明在相关领域的能力，为职业发展提供证明

学习此课程的硬件要求：您需要一台能够上网的笔记本电脑或台式机，且能够运行最新版 Chrome 或Firefox 浏览器；我们为您提供在云端实验环境的专用访问权限

课程语言：中文

Upcoming Public Workshops

If your organization is interested in boosting and developing key skills in AI, accelerated data science, or accelerated computing, you can request instructor-led training from the NVIDIA DLI.

Request a Workshop