检索增强生成(RAG)工作流正在彻底改变企业运营。然而,大多数现有教程仅停留在概念验证阶段,在扩展时常常力不从心。本课程旨在填补这一空白,重点讲解如何构建可扩展、可部署的生产级 RAG 工作流,利用 NVIDIA NIM 和 Kubernetes 实现。参与者将通过动手实践,学习如何使用 NIM Operator 部署、监控和扩展 RAG 工作流,并掌握基础设施优化、性能监控和高并发处理的最佳实践。
课程将从使用 NVIDIA API 目录构建一个简单的 RAG 工作流开始。参与者将在本地环境中使用 Docker Compose 部署和测试各个组件。在掌握基础知识后,重点将转向使用 NIM Operator 在 Kubernetes 集群中部署 NIM,如大语言模型(LLM)、NeMo 文本嵌入和 NeMo 文本重排序服务。这一部分将涵盖对 NIM 的部署、监控和扩展管理。在此基础上,课程将介绍如何基于这些部署构建生产级的 RAG 工作流,并探索 NVIDIA 提供的 PDF 数据摄取蓝图,学习如何将其集成进 RAG 工作流 中。
为了实现运维效率,课程还将介绍如何使用 Prometheus 和 Grafana 监控工作流性能、集群健康状况和资源使用情况。通过结合 NIM Operator 和 Kubernetes 水平 Pod 自动伸缩器(HPA),课程将讲解如何基于自定义指标动态扩展 NIM。参与者还将创建自定义仪表盘,用于可视化关键指标并洞察性能瓶颈。
学习目标
参加本次培训,您将学到:
- 使用 API 接口构建本地 Docker Compose 部署的 RAG 工作流
- 使用 NIM Operator 在 Kubernetes 集群中部署多种 NIM
- 整合多个 NIM 构建生产级 RAG 工作流,并集成高级数据摄取流程
- 使用 Prometheus 和 Grafana 监控 RAG 工作流和 Kubernetes 集群
- 利用 NIM Operator 扩展 NIM 应对高并发流量
- 创建、部署并扩展适用于多种智能体工作流(包括 PDF 摄取)的 RAG 工作流
部署企业级基于大语言模型的智能体和 RAG 应用,课程涵盖以下技术:
- 企业级生成式 AI 应用现状
- NVIDIA NIM
- 企业级 RAG 应用的组件与架构
- 大规模推理的考量与优化
- 使用 Kubernetes、Helm 与 NVIDIA RAG Operator 部署、管理和扩展 RAG 服务
- 使用 Prometheus 和 Grafana 实现集群行为与性能的可视化
- 部署和扩展多模态 RAG 应用的技巧
下载课程大纲文档 (PDF 697 KB)
