什么是生成式 AI?

生成式 AI 使用户能够根据各种输入快速生成新内容。这些模型的输入和输出可以包括文本、图像、声音、动画、3D 模型和其他类型的数据。

生成式 AI 的工作原理是什么?

生成式 AI 模型使用神经网络识别现有数据中的模式和结构,从而生成新的原创内容。

生成式 AI 的突破之一是能够使用无监督学习和半监督学习等学习方法,使组织能够更轻松、更快速地利用大量未标记的数据来创建基础模型。基础模型是 AI 系统的基础,可适应多种下游任务,涵盖语言、视觉、代码和其他模态。

OpenAI 的 GPT 系列等前沿基础模型以及 NVIDIA Nemotron™ 等开放式基础模型,使企业既可以选择完全托管的 API,也可以选择能够进行检查、微调并在本地和云环境中部署的开放模型。广为人知的例子包括 ChatGPT 等基于 GPT 的应用 (可以根据简短的文本提示词生成短文) 以及 Stable Diffusion 等图像模型 (可以根据文本描述创建逼真的图像)。

如何评估生成式 AI 模型?

成功的生成式 AI 模型的三个关键要求是:  

  1. 质量:尤其对于直接与用户交互的应用,高质量的生成输出是关键。例如,在语音生成中,语音质量差会导致难以理解。同样,在图像生成中,所需的输出应该在视觉上与自然图像无法区分。
  2. 多样性:好的生成模型能够在不牺牲生成质量的情况下捕获其数据分布中的少数模态。这有助于减少学习模型中的不良偏差。
  3. 速度:许多交互式应用要求快速生成,例如实时图像编辑,以便在内容创建工作流中使用。

生成式 AI 入门

学习生成式 AI 这个令人兴奋的领域,了解生成式 AI 的基本概念、应用,以及当前的机遇和挑战。

快速链接

如何开发生成式 AI 模型?

生成式模型有多种类型,将每种模型的优势相结合,就能创建更强大的模型。

以下是详细分类:

  • 扩散模型:扩散模型也称为去噪扩散概率模型 (DDPM),是一种在训练过程中通过两步过程确定潜在空间中向量的生成式模型。这两个步骤是正向扩散和反向扩散。正向扩散过程缓慢地向训练数据添加随机噪声,而反向过程则去除噪声,以重建数据样本。从完全随机噪声开始运行反向去噪过程,就可以生成新数据。

图 2:扩散和去噪过程。

与变分自编码器 (VAE) 模型相比,扩散模型可能需要更长的训练时间,但得益于这个两步过程,可以训练数百个层 (只要不是无限数量),这意味着在构建生成式 AI 模型时,扩散模型通常会提供最高质量的输出。

此外,扩散模型也被归类为基础模型,因为它们规模庞大,输出质量高,灵活性强,被认为最适合通用用例。然而,由于存在反向采样过程,运行基础模型是一个缓慢且耗时的过程。

在这篇博客文章中详细了解扩散模型的数学原理

  • 变分自动编码器 (VAE):VAE 由两个神经网络组成,通常称为编码器和解码器。
    当接收到输入时,编码器将其转换为更小、更密集的数据表示方式。这种压缩表示方式保留了解码器重建原始输入数据所需的信息,同时丢弃了所有不相关的信息。编码器和解码器协同运行,学习高效简单的潜在数据表示方式。这使得用户能够轻松对新的潜在表示方式进行采样,并通过解码器映射生成新的数据。
    虽然 VAE 可以更快地生成图像等输出,但它们生成的图像不像扩散模型生成的图像那样拥有丰富的细节。
  • 生成式对抗网络 (GAN):GAN 于 2014 年被提出,在扩散模型近期取得成功之前,它被认为是上述三种技术中最为常用的一种。GAN 让两个神经网络相互对抗:一个生成器负责生成新的样本,一个判别器负责学习区分生成的内容是真实的 (来自域) 还是伪造的 (由生成器生成)。

这两个模型同步协同训练,随着生成器产出更优质的内容,判别器也越来越善于识别生成内容,二者都变得更加"聪明"。这个过程不断重复,推动双方在每次迭代后持续改进,直到生成的内容与真实内容难以区分。

虽然 GAN 能够生成高质量的样本且输出速度快,但样本多样性较弱,因此 GAN 更适合用于特定领域的数据生成。

生成式模型开发中的另一个因素是底层架构。最流行的架构之一是 Transformer 网络。了解它在生成式 AI 中的工作原理非常重要。

Transformer 网络Transformer 与循环神经网络类似,用于以非序列化的方式处理序列化输入数据。

自注意力机制与位置编码两大核心机制,让 Transformer 格外适配文本类生成式人工智能应用。这两项技术能够完成时序信息表征,还可让算法捕捉长距离语境下词汇之间的关联关系。

图 3:图片来自 Aidan Gomez 的演讲,他是 2017 年提出 Transformer 概念的论文的八位合著者之一 (资料来源)。

自注意力层为输入的每个部分分配一个权重。权重表示该输入在上下文中相对于其余输入的重要性。位置编码是输入词出现顺序的表示方式。

一个 Transformer 由多个 Transformer 块 (也称为层) 组成。例如,Transformer 包含自注意力层、前馈层和归一化层,这些层全部协同运行来解密和预测标记化数据流,其中可能包括文本、蛋白质序列甚至图像块。这些基于注意力的 Transformer 架构是当今许多前沿和开放生成式模型的基础,其中也包括 NVIDIA Nemotron,该模型针对推理和代理式 AI 工作负载进行了优化。

生成式 AI 有哪些应用?

生成式 AI 是能够简化创作者、工程师、研究人员、科学家等工作流的强大工具。其用例和可能性涵盖了各个行业和人群。

生成式 AI 模型可以接受文本、图像、音频、视频和代码等输入,生成上述任何形式的新内容。例如,它可以将文本输入转换为图像,将图像转换为歌曲,或将视频转换为文本。

图 4:该示意图展示了每个类别中可能的生成式 AI 用例。

最热门的生成式 AI 应用如下:

  • 语言:文本是许多生成式 AI 模型的根基,被认为是最高级的生成式 AI 领域。最热门的基于语言的生成式模型示例之一称为大语言模型 (LLM)。大语言模型正被用于多种任务,包括生成文章、开发代码、翻译甚至理解基因序列。
  • 音频:音乐、音频和语音也是生成式 AI 的新兴领域。示例包括能够根据文本输入创作歌曲和音频片段、识别视频中的物体并为不同的视频片段生成配音甚至创作自定义音乐的模型。
  • 视觉:图像是生成式 AI 最热门的应用之一。其中包括创建 3D 图像、虚拟形象、视频、图表和其他插图。可以灵活地生成具有不同美学风格的图像,并对生成的视觉效果进行编辑和修改。生成式 AI 模型可以创建图表来展示新的化合物和分子结构,为药物发现提供助力;为虚拟或增强现实创建逼真的图像,为视频游戏生成 3D 模型,设计标志,增强或编辑现有图像等。
  • 合成数据:当数据不存在、受到限制或根本无法以最高准确性处理极端情况时,合成数据对于训练 AI 模型极为有用。通过生成式模型开发合成数据可能是克服许多企业数据挑战的最具影响力的解决方案之一。它涵盖各种模态和用例,通过一种名为标签高效学习的过程得以实现。生成式 AI 模型可以自动生成额外的增强训练数据,或学习数据的内部表示方式,以更少的标记数据训练 AI 模型,从而降低标记成本。

生成式模型的影响广泛,其应用也在不断增加。下面仅列举生成式 AI 如何帮助推动和改变交通运输、自然科学和娱乐领域的几个例子。

  • 汽车行业,生成式 AI 有望帮助构建用于仿真和汽车开发的 3D 世界和模型。合成数据也被用于训练智能汽车。能够在逼真的 3D 世界中对智能汽车的能力进行道路测试,可提高安全性、效率和灵活性,同时降低了风险和开销。
  • 生成式 AI 为自然科学领域带来了极大的益处。在医疗保健行业,生成式模型可以通过开发新的蛋白质序列为医学研究提供帮助,从而为药物发现提供助力。病历书写、医疗编码、医疗影像和基因组分析等任务的自动化也可以让从业者受益。同时,在气象行业,生成式模型可用于创建地球模拟,有助于准确地进行天气预报和自然灾害预测。这些应用有助于为大众创造更安全的环境,并使科学家能够预测和更好地应对自然灾害。
  • 娱乐行业的各个方面,从视频游戏到电影、动画、世界构建和虚拟现实,都能够利用生成式 AI 模型简化其内容创作流程。创作者正将生成式模型用作帮助他们发挥创意和提高工作效率的工具。

生成式 AI 面临哪些挑战?

作为一个不断演变的领域,生成模型仍被认为处于早期阶段,因此在以下方面存在发展空间:

  1. 计算基础设施的规模:生成式 AI 模型可能拥有数十亿个参数,需要快速高效的数据工作流来进行训练。维护和开发生成模型需要大量的资本投资、技术专业知识和大规模计算基础设施。例如,扩散模型可能需要数百万或数十亿张图像进行训练。此外,要训练如此庞大的数据集,需要巨大的算力,AI 从业者必须能够获得并利用数百个 GPU 来训练其模型。
  2. 采样速度:由于生成模型的规模,生成实例所需的时间可能会存在延迟。尤其是对于聊天机器人、AI 语音助手或客户服务应用等交互式用例,对话必须即时且准确地进行。随着扩散模型因其可创造高质量样本而日益流行,其采样速度缓慢的问题也越来越明显。
  3. 缺乏高质量数据:通常,生成式 AI 模型用于为不同的用例生成合成数据。然而,虽然全球每天都会生成海量数据,但并非所有数据都可用于训练 AI 模型。生成模型需要高质量、无偏差的数据才能运行。此外,一些领域没有足够的数据来训练模型。例如,3D 资产很少,且开发成本高昂。这些领域需要大量资源才能发展成熟。
  4. 数据许可:进一步加剧高质量数据缺乏问题的是,许多组织难以获得商业许可来使用现有数据集或构建定制数据集来训练生成模型。这是一个极其重要的过程,也是避免知识产权侵权问题的关键。

许多公司,例如 NVIDIA、Cohere 和 Microsoft 都致力于通过服务和工具以及前沿和开放的模型,来支持生成式 AI 模型的持续增长和发展。NVIDIA 贡献了开放的 Nemotron 模型和配套的开放数据集,帮助企业控制成本和数据、简化训练和评估,并可靠地大规模运行定制的生成式 AI 系统。

生成式 AI 有哪些优势?

生成式 AI 之所以重要,原因有很多。生成式 AI 的一些关键优势包括:

  1. 生成式 AI 算法可用于创建新的原创内容,例如图像、视频和文本,与人类创造的内容难以区分。这对娱乐、广告和创意艺术等应用非常有用。
  2. 生成式 AI 算法可用于提高现有 AI 系统 (例如自然语言处理和计算机视觉) 的效率和准确性。例如,生成式 AI 算法可用于创建合成数据,这些数据可用于训练和评估其他 AI 算法。
  3. 生成式 AI 算法可用于以新的方式探索和分析复杂数据,使企业和研究人员能够发现原始数据中不明显的隐藏模式和趋势。
  4. 生成式 AI 算法有助于自动执行和加速各种任务和流程,为企业和组织节省时间和资源。

总之,生成式 AI 有可能对各种行业和应用产生重大影响,是 AI 研究和开发的重要领域。

注意:为展示生成式模型的能力,本节“生成式 AI 有哪些优势?”由生成式 AI 模型 ChatGPT 撰写。

gen-ai-transformer

后续步骤

提升生成式 AI 和 LLM 方面的技术技能

了解如何构建和部署生成式 AI 驱动的解决方案,包括将前沿 API 与 NVIDIA Nemotron 等开放模型相结合的应用。

在 NVIDIA AI 游乐园体验生成式 AI

在 NVIDIA AI 游乐园生成风景、虚拟形象、歌曲等。

使用 API 访问生成式 AI 模型

使用 developer.nvidia.cn/nim 上以微服务形式提供的最新生成式 AI 模型。