大语言模型 (LLM) 代表着 AI 领域的重大进步,并有望通过习得的知识改变该领域。在过去几年中,LLM 的规模每年增加 10 倍,而且随着这些模型的复杂程度和规模的增加,其性能也在不断发展。
然而,LLM 的开发与维护并非易事,这使得大多数企业都无法使用 LLM。
for marketing copy and storyline creation.
for news and email.
for brand creation and gaming characters.
for intelligent Q&A and real-time customer support.
for dynamic commenting and function generation.
for languages and Wikipedia.
在 NVIDIA AI 平台上运行的 NeMo LLM 服务为企业提供了在私有云和公有云上自定义并部署 LLM 或通过 API 服务访问 LLM 的捷径。
NeMo LLM 服务将 NVIDIA Megatron 530B 模型作为一款云 API 公开。通过 Playground 或表示状态迁移 (REST) API,试用 530B 模型的功能。
NeMo Megatron 是一种端到端框架,用于训练和部署具有数十亿或数万亿参数的 LLM。
容器化框架可依托数千个 GPU 提供高训练效率,使企业能够构建和开发大规模模型。该框架提供各种功能,以便您整理训练数据、训练高达数万亿参数的大型模型、使用提示学习进行自定义,以及使用 NVIDIA Triton™ 推理服务器进行部署,进而在多个 GPU 和多个节点上运行大规模模型。
NeMo Megaton 经过优化,可在 NVIDIA DGX™ Foundry、NVIDIA DGX SuperPOD™、Amazon Web Services、Microsoft Azure 和 Oracle 云基础架构上运行。
数据科学家和工程师开始利用大型语言模型突破可能的界限。NVIDIA Triton™ 推理服务器是一款开源推理服务软件,可用于部署、运行和扩展 LLM。它支持使用 FasterTransformer 后端为大型语言模型提供多 GPU、多节点推理。Triton 使用张量和管线并行性以及消息传递接口 (MPI) 和 NVIDIA 集合通信库 (NCCL) 进行分布式高性能推理,并支持 GPT、T5 和其他 LLM。LLM 推理功能处于 beta 测试阶段。
BioNeMo 是一款基于 NVIDIA NeMo Megatron 构建的 AI 赋能药物研发云服务和框架,用于在超级计算规模下训练和部署大型生物分子 Transformer AI 模型。服务包括预训练 LLM、对蛋白质、DNA、RNA 和化学的通用文件格式的原生支持,还提供可供 SMILES(用于分子结构)和 FASTA(用于氨基酸和核苷酸序列)使用的数据加载器。BioNeMo 框架也可供下载,以便您可以在自己的基础架构上运行。
随时了解近期的 NVIDIA Triton 推理服务器和 NVIDIA® TensorRT™ 产品的更新、内容、资讯等。
观看 NVIDIA GTC 中关于 LLM 的近期点播会议。
了解不断发展的推理使用情况、用于理想推理加速器的注意事项,以及 NVIDIA AI 平台。
立即试用 NVIDIA NeMo LLM 服务。