什么是具身智能？

具身智能是指将人工智能集成到物理系统中，使其具备与物理世界交互的能力。这些系统可以包括通用机器人、人形机器人、智能汽车，甚至是工厂和仓库设施。机器学习、传感器和计算机视觉的融合使这些系统能够在现实环境中感知、推理和行动。

为什么具身智能很重要？

具身智能标志着人工智能演进取得重大进步，实现从数字领域到物理世界的跨越式发展。这种由生成式 AI 推动的转变，通过允许 AI 与物理世界互动和运行，开辟了新的可能性。

与主要处理和分析数据的信息人工智能不同，具身智能将 AI 的功能扩展到物理系统，例如建筑物、机器人以及汽车、卡车和自动驾驶出租车等自动驾驶汽车。通过集成机器学习与计算机视觉技术，这些系统为实体行业解锁了生成式 AI 应用的广阔前景。

当前研究正在不断突破具身智能的极限，推动打造更加复杂的技术架构和更广泛的通用场景。

构建具身智能需要哪些条件？

具身智能依赖多项关键技术，并经过多个发展阶段，在三大 AI 扩展定律的支持下才能实现。

预训练 — 数据源

预训练是指利用大规模数据集来教授 AI 模型掌握基本技能和知识，然后针对特定任务进行微调。

网络数据
网络数据为机器人基础模型提供了广泛且多样化的以人为中心的活动数据集和常识信息库。在预训练阶段让 AI 模型接触到此类数据，可帮助其理解现实世界中可能遇到的多样化场景与行为模式。

真实世界数据
使用真实机器人采集的数据对 AI 模型进行预训练，有助于确保这些模型能够应对现实世界的复杂性和不可预测性。这些数据有助于弥合仿真与现实之间的差距，使 AI 更加稳健且适应性更强。

仿真系统与世界模型生成的合成数据
数字孪生仿真生成的合成数据可与现实世界数据协同使用，用于训练多模态物理 AI。数字孪生是现实世界环境 (例如工厂或城市景观场景) 的物理精准虚拟复制体，具有准确的物理属性。用户可以运行多个场景，对光照、颜色、纹理和位置等参数进行随机化处理。世界基础模型作为能够理解空间动态和物理特性的神经网络，可显著增强仿真生成的合成数据，从而实现逼真效果。由受控仿真系统生成的合成数据，通过将模型的输出根植于结构化、可验证的信息基础中，有效防止出现幻觉。这种方法确保了在数据生成或增强过程中，模型始终固定于现实世界情境，从而增强了其可靠性。

后训练——合成数据和仿真

合成数据和仿真在后训练阶段也发挥着至关重要的作用。在仿真环境中应用强化学习与模仿学习等技术，可针对特定任务进行微调和优化，以便模型在部署时可靠地运行。

仿真合成数据
合成数据用于后训练，在仿真环境中优化并测试 AI 模型。通过生成多样化场景及边缘用例，高保真合成数据显著增强了具身智能系统的鲁棒性和性能表现。

仿真强化学习
强化学习是一种机器人学习技术，通过使模型能够通过与环境的交互持续改进来支持具身智能。通过行为反馈的奖赏与惩罚机制，该类模型能够随着时间推移持续优化其行为。仿真环境中的强化学习对具身智能系统尤其有用，该技术不仅能使机器人适应未知场景，还能在现实世界部署之前提高其性能。例如，一个机器人负责在动态仓库中穿行，可通过强化学习不断优化最有效的路径规划并避免障碍，随着经验的增加，不断提高其导航技能。

仿真中的模仿学习
模仿学习是另一种通过仿真数据训练的机器人学习方法。使用这种方法，AI 系统通过观察和模仿人类示范来学习。这有助于机器人和其他物理系统更有效地获得新技能和行为。通过向人类专家学习，这些系统还可以执行难以明确编程的任务。采集人类示范数据是确保 AI 系统获得鲁棒性且多样化的学习样本的关键步骤。

推理和实时运行技术

推理是将训练好的机器学习模型实时应用于计算机视觉、语言模型和视觉语言模型所处理的数据，并据此做出预测和决策。这是 AI 系统得以实现的一步，它可以解释环境并确定采取适当的行动。以下技术对于实时支持具身智能至关重要。

计算机视觉
计算机视觉算法会实时处理和解读来自摄像头或其他传感器的视觉数据。这对于物体识别、导航和场景理解等任务至关重要，有助于 AI 系统准确感知其环境。

大语言模型 (LLM)
一旦 AI 能够观察和解读周围环境，它就可以使用 LLM 和深度学习算法来处理和生成自然语言。这使得机器人和自动驾驶汽车能够理解并响应人类命令，并交流复杂的信息。LLM 改善了人与具身智能系统之间的交互，使其更加用户友好和高效。

视觉语言模型 (VLM)
基于 LLM 的功能构建，可集成多模态数据，例如图像、视频和传感器输入。在具身智能的背景下，VLM 通过提供更深入的情境理解、改善沟通和实现预测能力来增强物理系统的认知和交互能力。视觉语言行为模型 (VLAM) 通过进一步融合自然语言处理和行动规划技术，以提高系统执行复杂任务并与环境交互的能力。

具身智能用例有哪些？

智慧空间
搭载具身智能的自主移动机器人 (AMR) 能够穿梭于仓库、工厂和商业建筑中，完成物品拾取、放置和转运。这些机器人使用计算机视觉来识别和定位物品，利用强化学习来优化路径和动作策略，并在部署前使用世界模型来模拟和测试不同的场景。在仓库中，具身智能能够实现更高水平的自动化运营，降低运营成本，并提升库存管理和订单履约的准确性。

人形机器人和其他机器人
具身智能正在推动人形机器人在运动和操控方面的进步——人形机器人能够精准、高效地处理复杂任务。在工业场景中，人形机器人使用计算机视觉执行重复性装配任务、处理危险材料以及质量检测工作。在医疗健康领域，人形机器人可以辅助外科手术和医疗操作，并协助物理治疗和康复训练。机械臂、操作机械手等通用机器人还利用具身智能来优化物料搬运、检测和配送等任务。

智能汽车
机器人、无人驾驶出租车和智能汽车等自动驾驶汽车的安全运行，依赖于构成具身智能的各项技术。计算机视觉能够实现物体检测和车道识别。仿真用于安全地训练、测试和验证辅助驾驶堆栈，包括极端罕见场景和危险工况。世界模型通过丰富仿真环境中的天气、光照和地理位置等参数变化，还原车辆在真实世界部署中可能遇到的各类复杂场景。物理 AI 整合上述所有技术，搭建端到端辅助驾驶系统，让车辆能够在真实环境中安全感知、理解路况并自主做出决策行动。

如何开始使用具身智能？

NVIDIA Isaac™ Lab 是一个基于 NVIDIA Isaac Sim™ 构建的开源、基于仿真的机器人学习模块化框架。该系统具有可定制环境、传感器和训练场景的模块化功能，以及强化学习和模仿学习等技术，让您能够教会任何机器人从快速演示中学习。
NVIDIA 为智能汽车提供了一个端到端的开发平台。NVIDIA DRIVE AGX™ 开发者套件是一个专为开发量产级智能汽车而设计的车载平台。NVIDIA 的辅助驾驶基础设施平台包含必要的数据中心硬件、软件和工作流程，以支持整个辅助驾驶技术开发过程。
Mega NVIDIA Omniverse^™ Blueprint 为开发者提供了参考工作流程和架构，以便在真实世界部署之前，在工业数字孪生中对多个机器人车队进行测试。

后续步骤

工业设施数字孪生

了解适用于虚拟工厂、仓库和工业设施的具身智能。

工业设施数字孪生用例

辅助驾驶仿真

了解具身智能和辅助驾驶仿真。

辅助驾驶仿真用例

人形机器人

了解如何利用具身智能推进人形机器人发展。

人形机器人用例