什么是 AI 训练

AI 训练是训练 AI 模型识别数据中模式和逻辑的计算过程。它将文本、代码或图像等原始信息转化为智能,使 AI 能够执行其没有明确编程的任务,例如推理、解决问题和内容生成。

AI 训练的工作原理是什么?

基础模型,包括大语言模型,都是基于海量数据训练的通用人工智能系统,可以执行多种不同的任务,例如理解语言、生成文本、分析图像或跨域推理,并不是针对单一案例构建。这些模型构成了现代生成式 AI 的技术基础,使系统能够创建文本、代码、图像和其他形式的内容。它们强大的能力来自于大规模的 AI 训练,教会它们学习数据中的潜在模式和表示。其中许多模型是使用开源研究、框架和数据集开发的,加速整个 AI 生态系统的创新,包括广泛采用的机器学习框架,例如 JAXPyTorch,它们有助于规范大规模模型开发和训练

在训练开始之前,先收集、清理和准备原始数据。这项工作通常由数据科学家和机器学习工程师完成,他们使用 Python 等工具和语言来构建和管理数据管线。在现代工作流中,大部分准备工作都实现了自动化,以提高一致性、可重复性和速度。

在训练过程中,AI 模型会被展示大量示例,并对每个示例做出初步预测。将该预测值与正确答案进行比较,并计算出两者之间的差值,即损失值。模型利用此信号调整其内部参数 (通常为数百万或数十亿的权重) 以减少误差。传统上,这一过程在很大程度上依赖于监督学习。即模型在特定的、由人工标注的数据集上进行训练,以执行狭窄的任务 (例如识别图像中的特定物体)。然而,现代生成式 AI 和 LLM 已转向自监督学习。这些模型不再依赖人工标签,而是从海量非结构化的互联网规模数据中 (通常需要数万亿的 Token) 自行生成学习信号,从而学习通用的模式、逻辑和上下文,从而创建灵活的基础,以便日后针对特定应用进行微调。

这种核心学习循环在预训练期间最为突出,模型使用基于梯度的优化方法从大型数据集中学习通用表示。相比之下,后训练和微调越来越依赖于强化学习技术,例如从人类或合成反馈中学习 (RLHF)。这些技术也是计算密集型技术,在优化模型行为和输出质量方面发挥着关键作用。在后训练阶段,基础模型会针对特定任务进行进一步训练,例如指令遵循或对话。在此过程中,模型可以学习其他能力,如推理、遵守安全准则、使用工具,以及接受更长的输入上下文。

这种规模的基础模型训练需要大量计算,通常需要专门构建的 AI 系统。这些 AI 系统将 GPU 等高性能加速器与优化的内存、网络和软件相结合,通过协同设计原则实现跨大型分布式环境的高效扩展。训练流程越来越依赖自动化来编排数据移动、建模检查点、实验跟踪和跨分布式基础设施的扩展。

在 LLM 的早期阶段,扩展定律主要侧重于预训练扩展:观察到的数据显示,随着初始训练期间的数据量、参数数量和总算力的增加,模型性能呈现可预判的提升趋势。如今,新一代扩展定律划分更为精细,已演变成一个决定模型如何获得智能的三大支柱框架:

  • 预训练扩展:通过处理数万亿个 Token 来构建“基础”知识和世界模型。
  • 后训练扩展:通过微调和强化学习 (使用 RLHF 等技术) 来改进知识,提高指令遵循程度和安全性。
  • 测试时 (推理) 扩展:一个新的前沿,在实际生成过程中,模型有更多的“思考时间” (计算) 来解决特定问题。

通过这种专注于测试时扩展定律方式的转变,AI 推理 (AI Reasoning) 出现了,可以帮助模型回答更复杂的现实世界问题。推理不依赖“直觉” (即时模式召回),而是允许模型在 AI 推理 (AI Inference) 过程中迭代地优化其输出。实际上,它将计算负担从训练阶段转移到提出问题的那一刻。这种能力对于 AI 智能体尤为重要,因为它们使用推理来规划和评估行动,并与工具或其他智能体交互以完成多步骤任务。

例如,LLM 能轻松回答“法国的首都是哪里”这类事实性问题,而 AI 推理可使其能够处理复杂场景,例如,当家庭成员关系紧张时,如何确定最佳座位安排。此时,模型需要梳理各项约束条件、推演多种可行方案,并在给出答案之前“思考”逻辑。

即使新的测试时扩展技术扩展了模型在推理过程中的能力,预训练和后训练仍然是模型智能的基础,决定了模型的知识储备与知识运用水平。

全球领先的模型在训练中都使用了 NVIDIA 技术

OpenAI 的 GPT-5.2 和其他领先模型利用 NVIDIA 的技术栈推动 AI 的前沿。

什么是预训练?

预训练是初始的大规模学习阶段,在这个阶段,模型在文本、图像、音频或视频等大型通用数据集上进行训练,以学习广泛的模式和表征。这一阶段在很大程度上借鉴了机器学习理论与大规模分布式系统领域的技术成果。

在对模型进行调整以适应特定任务之前,预训练可为模型提供理解语言、识别图像或识别数据中关系等基础功能。预训练通常极度消耗资源,在创建基础或基础模型时只需执行一次。

大规模预训练为 AI 领域带来了重大突破,包括出现了数十亿和万亿参数的 Transformer 模型混合专家模型,例如 DeepSeek AI 的 DeepSeek-R1、Moonshot AI 的 Kimi K2 Thinking、OpenAI 的 gpt-oss-120B 和 Mistral AI 的 Mistral Large 3。ChatGPT 等知名生成式 AI 应用就是基于这些基础模型的进步而构建的。

大规模分布式训练技术实现了需要大量算力的预训练。随着多模态数据量的持续增长,预训练扩展仍然是未来模型功能的关键驱动力。

什么是后训练?

后训练是指针对预训练完成的模型,为适配特定应用场景与专业领域所采用的所有技术。

这通常包括利用客服对话、财务报表或医疗病例等小规模特定数据集上进行微调,同时应用安全、对齐或指令遵循等优化手段。在现代 LLM 开发中,强化学习在后训练中发挥着核心作用,使模型能够提升推理质量、强化指令执行准确度,输出内容更加贴合人类偏好,这显著增加了算力消耗。

如果把预训练比作在校学习基础知识,那么后训练就等同于职业专项培训。例如,大型语言模型可以经过后训练来执行情感分析、翻译,或理解医疗、法律、金融等领域的专业语言。

后训练还可以使用合成数据来增强真实世界数据集。AI 生成的数据有助于模型从真实世界中很难遇到的场景中学习,进一步提升模型稳定性,优化极端场景下的运行表现。

什么是测试时扩展?

测试时扩展 (也称为长思维) 是一种推理阶段扩展法,使 AI 模型能够在查询的同时推理解决复杂问题,而不是依赖一次性响应。

虽然预训练和后训练决定了模型的知识,但测试时扩展使模型能够在生成答案之前探索多种可能的解决方案。 在推理过程中,模型会分配额外的计算能力将问题分解为多个步骤,并优化其输出,类似于人类通过复杂的决策进行推理而不是立即回答。对于多步骤推理、智能体工作流或复杂代码生成等具有挑战性的任务,测试期扩展所需的计算能力比一次性推理多 100 倍,但始终能提供更高质量、更可靠的结果。这种能力对于代理式系统、编码助手和多步骤规划工具等高级 AI 应用至关重要。

AI 训练的应用和用例

 

AI 训练使基础模型能够从大规模、多样化的数据集中学习广泛、可转移的能力,为各种真实世界应用的推理、内容生成和决策支持奠定基础。 这些模型不是为单一任务构建的,而是经过预训练,以捕捉可灵活应用于跨领域的潜在模式、关系和知识。

生成式 AI 训练的常见应用包括为对话式智能体、编码助手、内容创作工具和特定领域的 copilot 提供支持的大型语言和多模态模型,以及用于医疗影像、质量检测和自主感知等领域的视觉和多模态系统。在各行业中,各企业组织越来越重视训练或调整可通过 API 和自动化访问的基础模型,实现跨企业工作流、实时服务和大型数字平台的快速部署。在金融、网络安全、科学和工程等领域,生成式模型通过合成信息、探索复杂场景和增强人类决策来支持高级推理、仿真和发现。

在这些用例中,训练数据的质量、规模和多样性以及有效的预训练、后训练和推理策略直接影响模型的能力和可靠性。经过良好训练的基础模型是生产系统中高效、可扩展的生成式推理的基础。

 

AI 训练有哪些优势?

智能

预训练和后训练仍然是智能的基石。及时构建高质量模型需要世界一流的加速器、先进的网络建设和全面优化的软件栈。

效率

NVFP4 是一种 4 位预训练格式,在大规模训练 LLM 和提高整体基础设施效率方面取得了巨大进步。

性能

MLPerf Training v5.1 中 (一项长期进行的行业标准 AI 训练性能测试的最新一轮) 中,NVIDIA 横扫所有七项测试,在大语言模型、图像生成、推荐系统、计算机视觉和图神经网络方面实现了最快的训练速度。

AI 训练挑战和解决方案

训练现代 AI 模型存在多个技术和运营挑战。 最大的问题之一是数据质量和可用性。 模型只能从训练所依据的数据中学习,因此不完整、有偏差或噪声的数据集会限制模型精度和可靠性。为此,我们通过仔细的数据管理、预处理、标记,以及使用数据增强或合成数据填补空白来解决。

另一个主要挑战是计算规模。 由于模型架构、优化方法和反复训练迭代才能收敛到准确的结果,AI 训练本质上是计算密集型训练。虽然大规模数据集会进一步增加计算需求,但即使是基于有限数据训练的小型模型,也可能需要大量的计算、内存和能源。 要满足这些需求,需要在多个维度上表现出色,包括:高性能加速器;先进的网络技术—适用于纵向扩展、横向扩展和日益重要的跨架构扩展;以及全面优化的软件栈。 在实践中,这需要一个专门构建的 AI 基础设施平台,才能在大规模部署下提供稳定一致的性能。

训练稳定性和收敛性也可能很困难,特别是在模型规模和复杂性不断增加的情况下。 更好的优化算法、混合精度训练和改进的模型架构等技术有助于更快、更可靠地训练模型。

最后,成本和训练时间是关键问题。 训练周期长会延迟部署并增加支出。

这些方法共同帮助企业组织训练更有能力、更高效、更可靠的 AI 模型,为在真实世界应用中进行可扩展的推理奠定坚实的基础。

 

AI 训练和 AI 推理之间有什么区别?

生成式 AI 模型 (例如 LLM) 属于深度学习系统,通过从大规模数据集中学习模式来生成新内容。 与其他深度学习模型一样,它们分两个主要阶段:训练和推理。

这些模型为许多现代 AI 应用 (从聊天机器人和 copilot 到图像生成和代码助手) 提供支持,通常通过 API 访问,使应用无需直接管理底层模型即可集成 AI 功能。

AI 推理是 AI 的部署阶段,受训练的模型将所学到的知识实时应用于生成新的数据预测、分类或响应。 在 LLM 中,推理涉及生成 AI Token,这直接影响投资回报。 提示词工程等技术在引导模型行为方面起着关键作用,而 API 则使这些推理功能能够大规模嵌入到产品、工作流和自动化系统中。

后续步骤

NVIDIA Nemotron

了解 NVIDIA Nemotron™ 模型、公开的权重、训练数据和技术如何帮助优化 AI 应用的成本和吞吐量。

NVFP4 训练

了解 NVFP4 训练,这是一种 4 位量化格式,可实现更高的精度、速度和效率。