什么是 AI 推理？

推理是指经过训练的 AI 模型通过对新输入数据进行逻辑推导和预测，从而生成新输出的过程，该过程实时对输入进行分类并应用所学的知识。

AI 推理有哪些益处？

AI 推理将机器学习和人工智能技术引入现实世界，从而解决先进应用的部署难题。从语音 AI 助手和个性化购物推荐，到稳定的欺诈检测系统，推理正在驱动各个领域的 AI 工作负载。

新商品、工作流和 AI 解决方案：推理驱动测试时计算和 AI 推理能力。DeepSeek-R1、谷歌 DeepMind 的 Gemini 2.0 Flash Thinking 以及 NVIDIA Llama Nemotron™ 等模型都是新型 AI 推理或 “长思考” 模型。推理模型通过多轮处理对复杂问题进行分析和推理，从而提供更高的准确性和可解释性。这只能通过低延迟、高性能的推理实现。
用户体验提升：高性能 AI 推理通过为实时交互提供快速、准确的响应，提升了终端用户体验。在保证高质量用户体验的同时，还可平衡每单位词元 (token) 的成本，以及系统整体延迟。
安全性和可靠性：在机器人和组合辅助驾驶等以安全为重的应用中，准确和实时的推理必不可缺。低延迟的推理使这些系统能够立即感知、理解和响应所处环境，减少相应等待时间，从而提高精准性与安全性。
工作流自动化：AI 推理可自动化重复性任务，从而提高生产力、减少失误，并释放人力资源给更复杂的任务。

AI 训练和推理之间的关键区别

AI 训练是指 AI 模型或神经网络基于训练数据集调整其权重参数，从而学习执行特定任务的过程。此过程涉及通过多次迭代以实现高精度，尤其是在处理大量数据以及调参的时候。

推理是将经过训练的模型应用于现实世界数据，通过预测或分类生成新输出结果的过程。此阶段针对速度和效率进行优化，通常使用投机采样、量化、剪枝和层融合等技术，在保持准确性的同时提高性能。

随着模型 (尤其是先进的 AI 推理模型) 复杂度的增长，执行模型推理需要更多的计算资源。企业必须扩展其加速计算资源，为新一代 AI 工具提供支持，实现复杂的问题解决、编码和多步骤规划。

详细了解：扩展定律如何驱动更智能、更强大的 AI

AI 推理的工作原理是什么？

AI 推理，尤其是在大语言模型的背景下，的工作方式是生成 AI token，并决定了与这些 token 相关联的处理速度、成本和用户体验。这种大型工作负载的算力和效率需求要靠高性能的 GPU 和网络设备等专用硬件来满足，并需要加速计算技术支撑的全栈软件做进一步优化。

图片描述：该图表展示了大语言模型中的模型推理流程，从对用户提示词的分词 (tokenization) 以及两个 GPU 的处理阶段开始：预填充 (Prefill，输入 token 的处理) 和解码(Decode，输出 token 的生成)。端到端请求的延迟包括分词、预填充、解码以及将结果转为人类可读输出 (de-tokenization) 所需的时间。

模型推理

输入处理：当用户提供输入数据 (例如文本查询) 时，AI 模型会对该输入进行处理，并将其分解为对应的 token。Token 是模型能够理解和处理的最小文本单元。例如，一个句子可能会被分解为词 (word)、子词 (subword)，甚至是字符 (character)，具体取决于分词策略。
Token 生成：然后，模型使用输入产生的 token 生成响应。模型通过其各层处理这些嵌入向量，以根据上下文生成适当的回复。GPU 由于具有并行处理能力，可显著加速复杂模型的计算，因而通常被用于这一步。
输出解码：将生成的 token 组合成连贯的回复，返回给用户。

AI Token 成本

每单位 Token 成本：AI 推理成本通常用每单位 token 成本来衡量。这是因为处理和生成 token 所需的计算资源可能非常庞大，对于多模态大语言模型而言尤其如此。

延迟：延迟是 AI 推理中生成每个 token 所需的时间。低延迟对于实时 AI 应用至关重要，因为这有助于提升用户体验。但是，低延迟的实现需要更强大的硬件和实时处理，这通常会增加成本，也会加重计算负载。
吞吐量：单位时间内能够处理的 token 数量也会影响成本。通过优化模型和采用动态批处理 (dynamic batching) 等技术，可以提升吞吐量。

如何部署 AI 推理？

推理部署类型	说明
批量推理	通过对多个用户的请求进行整合，尽可能提高 GPU 利用率，可以为许多用户提供高吞吐量。
实时推理	在数据到达时即刻进行处理，对于需要即时作出决策的应用而言是不可或缺的，例如组合辅助驾驶或视频分析。
分布式推理	在多个设备或节点上同步运行 AI 推理，实现计算并行化，从而对大型模型进行高效扩展，同时降低延迟。
分离推理	将 AI 的思考过程划分为两个独立阶段 — 即初始分析和响应生成，并在专用计算机上分别运行各阶段以提升效率。

适用于生成式 AI 应用场景的 LLM 推理

大语言模型 (LLM) 推理是生成式 AI、聊天机器人和文档总结应用的重要组成部分。这些应用需要兼顾高性能、低延迟和资源的高效利用，以提供无缝的用户体验并保持成本效益。

评估 LLM 推理的三个主要指标包括首 token 延迟、第二个 token 开始的每个输出 token 的延迟和实际吞吐量。

首 Token 延迟 (TTFT)：用户体验

衡量系统生成第一个 token 所花费的时间对于用户留存至关重要。较短的 TTFT 可确保用户快速收到初始响应，这对于用户留存和满意度至关重要。

从第二个 Token 开始的每个输出 Token 延迟 (TPOT)：吞吐量

用于衡量生成后续每个 token 的平均用时，这会影响推理过程中的整体速度和效率。降低 TPOT 对于确保快速生成整个响应具有重要的意义，这对聊天机器人和同声翻译等实时应用程序尤为重要。

实际吞吐量：系统效率

评估延迟、性能和成本之间的平衡，是在保持目标 TTFT 和 TPOT 前提下测量的吞吐量，用于针对业务目标优化 AI 推理。

AI 推理面临哪些挑战？

AI 推理面临的重大挑战在于实现延迟、成本与吞吐量之间的平衡。要实现高性能，通常需要超量配置 GPU，这会加高成本。实时延迟则需要增加 AI 基础设施或缩小批处理规模，这两种方案均有可能降低性能。在不额外增加成本的情况下，低延迟和高吞吐量难以兼得，因而数据中心往往需要作出权衡取舍。

图片描述：AI 推理面对的主要挑战是平衡延迟、成本和吞吐量。侧重优化某个指标时，往往需要以牺牲其他指标的最大值为代价。

您可以通过应用以下优化技术来克服这些挑战：

优化技术	挑战
高级批处理 (Advanced Batching)	通过动态批处理 (dynamic batching)、序列批处理 (sequence batching) 和连续批处理 (in-flight batching) 等技术优化 GPU 利用率，平衡吞吐量与延迟。
分块预填充 (Chunked Prefill)	将输入数据分块处理，以降低处理的耗时与成本。
多模块注意力 (Multiblock Attention)	优化注意力机制以聚焦关键输入部分，从而降低计算负载和成本。
模型集成 (Model Ensembles)	运用多种算法来提高预测的准确性和健壮性。
动态扩展 (Dynamic Scaling)	实时调整 GPU 资源，实现成本优化并在负载高峰期间保持高性能。

通过使用这些先进技术和最佳实践，企业可以确保其 AI 兼具高性能、低延迟和高性价比，最终提升用户体验并创造商业价值。

推理如何驱动 AI 推理能力发展？

AI 推理基于一种称为 “测试时扩展” 的新型扩展定律驱动推理模型，该定律支持模型执行多轮推理。在这个过程中，模型需要对问题进行迭代式的 “思考”，产生更多的输出 token，且需要更长生成时间，这有助于生成更高质量的响应。对于支撑实时推理、增强推理模型的输出质量而言，充足的测试时算力至关重要。

AI 推理在 AI 工厂中如何运行？

AI 工厂是一种大型计算基础设施，可用于实现 AI 模型的自动化开发、部署和持续优化。AI 推理在这些系统中发挥着至关重要的作用，因为它意味着经过训练的模型，已经进入了针对现实世界生成预测和判断的最后阶段。一旦模型在 AI 工厂中完成开发，它就会被优化和部署用于推理，它会通过云、混合云或本地环境提供高性能、低延迟的 AI 服务。

AI 工厂还会持续优化和管理经过加速的 AI 基础设施，从而确保高效推理。此外，通过建立 AI 数据飞轮，推理结果会反馈回到 AI 工厂，模型因而能够基于现实世界的数据持续学习和改进。这一反馈闭环有助于 AI 系统持续进化，随着时间推移不断提高准确性和效率。通过将 AI 推理深度集成至工作流中，AI 工厂可以在各个行业实现可扩展且经济高效的 AI 部署。

上手实践 AI 推理

NVIDIA 提供全栈加速库、软件和服务，助力您上手实践 AI 推理。凭借领先的推理生态系统、专为加速设计的软件、先进的网络技术以及行业领先的性能功耗比，NVIDIA 正在为这一新时代的 AI 计算提供其所需的高吞吐量、低延迟和成本效益。

后续步骤

了解 NVIDIA 推理

了解 NVIDIA 推理平台，包括适用于全栈式 AI 方案的 NVIDIA Dynamo。

了解详情

了解如何优化推理

阅读了解如何通过 NVIDIA 全栈解决方案优化 AI 推理，实现高吞吐量与低延迟。

了解详情

性能基准

请参考推理性能基准测试，了解您关注模型的性能表现。

了解详情