生成式 AI 使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型和其他类型的数据。
生成式 AI 模型使用神经网络识别现有数据中的模式和结构,从而生成新的原创内容。
生成式 AI 的突破之一是能够使用无监督学习和半监督学习等学习方法,使组织能够更轻松、更快速地利用大量未标记的数据来创建基础模型。基础模型是 AI 系统的基础,可适应多种下游任务,涵盖语言、视觉、代码和其他模态。
OpenAI 的 GPT 系列等前沿基础模型以及 NVIDIA Nemotron™ 等开放式基础模型,使企业既可以选择完全托管的 API,也可以选择能够进行检查、微调并在本地和云环境中部署的开放模型。广为人知的例子包括 ChatGPT 等基于 GPT 的应用 (可以根据简短的文本提示词生成短文) 以及 Stable Diffusion 等图像模型 (可以根据文本描述创建逼真的图像)。
快速链接
生成式模型有多种类型,将每种模型的优势相结合,就能创建更强大的模型。
以下是详细分类:
图 2:扩散和去噪过程。
与变分自编码器 (VAE) 模型相比,扩散模型可能需要更长的训练时间,但得益于这个两步过程,可以训练数百个层 (只要不是无限数量),这意味着在构建生成式 AI 模型时,扩散模型通常会提供最高质量的输出。
此外,扩散模型也被归类为基础模型,因为它们规模庞大,输出质量高,灵活性强,被认为最适合通用用例。然而,由于存在反向采样过程,运行基础模型是一个缓慢且耗时的过程。
在这篇博客文章中详细了解扩散模型的数学原理。
这两个模型同步协同训练,随着生成器产出更优质的内容,判别器也越来越善于识别生成内容,二者都变得更加"聪明"。这个过程不断重复,推动双方在每次迭代后持续改进,直到生成的内容与真实内容难以区分。
虽然 GAN 能够生成高质量的样本且输出速度快,但样本多样性较弱,因此 GAN 更适合用于特定领域的数据生成。
生成式模型开发中的另一个因素是底层架构。最流行的架构之一是 Transformer 网络。了解它在生成式 AI 中的工作原理非常重要。
Transformer 网络:Transformer 与循环神经网络类似,用于以非序列化的方式处理序列化输入数据。
自注意力机制与位置编码两大核心机制,让 Transformer 格外适配文本类生成式人工智能应用。这两项技术能够完成时序信息表征,还可让算法捕捉长距离语境下词汇之间的关联关系。
图 3:图片来自 Aidan Gomez 的演讲,他是 2017 年提出 Transformer 概念的论文的八位合著者之一 (资料来源)。
自注意力层为输入的每个部分分配一个权重。权重表示该输入在上下文中相对于其余输入的重要性。位置编码是输入词出现顺序的表示方式。
一个 Transformer 由多个 Transformer 块 (也称为层) 组成。例如,Transformer 包含自注意力层、前馈层和归一化层,这些层全部协同运行来解密和预测标记化数据流,其中可能包括文本、蛋白质序列甚至图像块。这些基于注意力的 Transformer 架构是当今许多前沿和开放生成式模型的基础,其中也包括 NVIDIA Nemotron,该模型针对推理和代理式 AI 工作负载进行了优化。
生成式 AI 是能够简化创作者、工程师、研究人员、科学家等工作流的强大工具。其用例和可能性涵盖了各个行业和人群。
生成式 AI 模型可以接受文本、图像、音频、视频和代码等输入,生成上述任何形式的新内容。例如,它可以将文本输入转换为图像,将图像转换为歌曲,或将视频转换为文本。
图 4:该示意图展示了每个类别中可能的生成式 AI 用例。
生成式模型的影响广泛,其应用也在不断增加。下面仅列举生成式 AI 如何帮助推动和改变交通运输、自然科学和娱乐领域的几个例子。
作为一个不断演变的领域,生成模型仍被认为处于早期阶段,因此在以下方面存在发展空间:
许多公司,例如 NVIDIA、Cohere 和 Microsoft 都致力于通过服务和工具以及前沿和开放的模型,来支持生成式 AI 模型的持续增长和发展。NVIDIA 贡献了开放的 Nemotron 模型和配套的开放数据集,帮助企业控制成本和数据、简化训练和评估,并可靠地大规模运行定制的生成式 AI 系统。
生成式 AI 之所以重要,原因有很多。生成式 AI 的一些关键优势包括:
总之,生成式 AI 有可能对各种行业和应用产生重大影响,是 AI 研究和开发的重要领域。
注意:为展示生成式模型的能力,本节“生成式 AI 有哪些优势?”由生成式 AI 模型 ChatGPT 撰写。
后续步骤