推理是指经过训练的 AI 模型通过对新输入数据进行逻辑推导和预测,从而生成新输出的过程,该过程实时对输入进行分类并应用所学的知识。
AI 推理将机器学习和人工智能技术引入现实世界,从而解决先进应用的部署难题。从语音 AI 助手和个性化购物推荐,到稳定的欺诈检测系统,推理正在驱动各个领域的 AI 工作负载。
相关内容
AI 训练是指 AI 模型或神经网络基于训练数据集调整其权重参数,从而学习执行特定任务的过程。此过程涉及通过多次迭代以实现高精度,尤其是在处理大量数据以及调参的时候。
推理是将经过训练的模型应用于现实世界数据,通过预测或分类生成新输出结果的过程。此阶段针对速度和效率进行优化,通常使用投机采样、量化、剪枝和层融合等技术,在保持准确性的同时提高性能。
随着模型 (尤其是先进的 AI 推理模型) 复杂度的增长,执行模型推理需要更多的计算资源。企业必须扩展其加速计算资源,为新一代 AI 工具提供支持,实现复杂的问题解决、编码和多步骤规划。
图片描述:该图表展示了大语言模型中的模型推理流程,从对用户提示词的分词 (tokenization) 以及两个 GPU 的处理阶段开始:预填充 (Prefill,输入 token 的处理) 和解码(Decode,输出 token 的生成)。端到端请求的延迟包括分词、预填充、解码以及将结果转为人类可读输出 (de-tokenization) 所需的时间。
每单位 Token 成本:AI 推理成本通常用每单位 token 成本来衡量。这是因为处理和生成 token 所需的计算资源可能非常庞大,对于多模态大语言模型而言尤其如此。
推理部署类型 | 说明 |
批量推理 | 通过对多个用户的请求进行整合,尽可能提高 GPU 利用率,可以为许多用户提供高吞吐量。 |
实时推理 | 在数据到达时即刻进行处理,对于需要即时作出决策的应用而言是不可或缺的,例如组合辅助驾驶或视频分析。 |
分布式推理 | 在多个设备或节点上同步运行 AI 推理,实现计算并行化,从而对大型模型进行高效扩展,同时降低延迟。 |
分离推理 | 将 AI 的思考过程划分为两个独立阶段 — 即初始分析和响应生成,并在专用计算机上分别运行各阶段以提升效率。 |
大语言模型 (LLM) 推理是生成式 AI、聊天机器人和文档总结应用的重要组成部分。这些应用需要兼顾高性能、低延迟和资源的高效利用,以提供无缝的用户体验并保持成本效益。
评估 LLM 推理的三个主要指标包括首 token 延迟、第二个 token 开始的每个输出 token 的延迟和实际吞吐量。
衡量系统生成第一个 token 所花费的时间对于用户留存至关重要。较短的 TTFT 可确保用户快速收到初始响应,这对于用户留存和满意度至关重要。
用于衡量生成后续每个 token 的平均用时,这会影响推理过程中的整体速度和效率。降低 TPOT 对于确保快速生成整个响应具有重要的意义,这对聊天机器人和同声翻译等实时应用程序尤为重要。
评估延迟、性能和成本之间的平衡,是在保持目标 TTFT 和 TPOT 前提下测量的吞吐量,用于针对业务目标优化 AI 推理。
AI 推理面临的重大挑战在于实现延迟、成本与吞吐量之间的平衡。要实现高性能,通常需要超量配置 GPU,这会加高成本。实时延迟则需要增加 AI 基础设施或缩小批处理规模,这两种方案均有可能降低性能。在不额外增加成本的情况下,低延迟和高吞吐量难以兼得,因而数据中心往往需要作出权衡取舍。
图片描述:AI 推理面对的主要挑战是平衡延迟、成本和吞吐量。侧重优化某个指标时,往往需要以牺牲其他指标的最大值为代价。
您可以通过应用以下优化技术来克服这些挑战:
优化技术 | 挑战 |
高级批处理 (Advanced Batching) |
通过动态批处理 (dynamic batching)、序列批处理 (sequence batching) 和连续批处理 (in-flight batching) 等技术优化 GPU 利用率,平衡吞吐量与延迟。 |
分块预填充 |
将输入数据分块处理,以降低处理的耗时与成本。 |
多模块注意力 |
优化注意力机制以聚焦关键输入部分,从而降低计算负载和成本。 |
模型集成 |
运用多种算法来提高预测的准确性和健壮性。 |
动态扩展 |
实时调整 GPU 资源,实现成本优化并在负载高峰期间保持高性能。 |
通过使用这些先进技术和最佳实践,企业可以确保其 AI 兼具高性能、低延迟和高性价比,最终提升用户体验并创造商业价值。
AI 推理基于一种称为 “测试时扩展” 的新型扩展定律驱动推理模型,该定律支持模型执行多轮推理。在这个过程中,模型需要对问题进行迭代式的 “思考”,产生更多的输出 token,且需要更长生成时间,这有助于生成更高质量的响应。对于支撑实时推理、增强推理模型的输出质量而言,充足的测试时算力至关重要。
AI 工厂是一种大型计算基础设施,可用于实现 AI 模型的自动化开发、部署和持续优化。AI 推理在这些系统中发挥着至关重要的作用,因为它意味着经过训练的模型,已经进入了针对现实世界生成预测和判断的最后阶段。一旦模型在 AI 工厂中完成开发,它就会被优化和部署用于推理,它会通过云、混合云或本地环境提供高性能、低延迟的 AI 服务。
AI 工厂还会持续优化和管理经过加速的 AI 基础设施,从而确保高效推理。此外,通过建立 AI 数据飞轮,推理结果会反馈回到 AI 工厂,模型因而能够基于现实世界的数据持续学习和改进。这一反馈闭环有助于 AI 系统持续进化,随着时间推移不断提高准确性和效率。通过将 AI 推理深度集成至工作流中,AI 工厂可以在各个行业实现可扩展且经济高效的 AI 部署。
NVIDIA 提供全栈加速库、软件和服务,助力您上手实践 AI 推理。凭借领先的推理生态系统、专为加速设计的软件、先进的网络技术以及行业领先的性能功耗比,NVIDIA 正在为这一新时代的 AI 计算提供其所需的高吞吐量、低延迟和成本效益。