机器人和边缘 AI

Skild AI:通过仿真开创全载体智能技术

Skild AI

目标

Skild AI 借助 NVIDIA 的加速计算基础设施开发了一种新技术,用于训练全载体机器人基础模型,该模型能够适应新的机器人形态,且无需或只需极少后训练即可掌握新技能。该公司使用 NVIDIA Omniverse™ 库,以及 NVIDIA Isaac™ Lab 等开放框架进行高级物理仿真,并使用 NVIDIA Cosmos™ 进行数据增强和生成,以训练其基础模型。

合作伙伴

Skild AI

用例

Robotics

要点

  • 训练出了一种通用的全载体机器人大脑,可以操控任何机器人执行任何任务
  • 在进行数据采集后的数小时内,就能达到 60%–80% 的任务完成率
  • 能够适应高达机器人体重 1.5 倍的极端有效载荷,同时保持鲁棒性和稳定性
  • 总体拥有成本 (TCO) 降低 10 倍:Skild Brain 能够适应低成本的高噪声硬件,可成功将机器人部署到成本仅为 4000 至 15000 美元的系统上,而传统定制系统的成本会超过 25 万美元
  • 快速适应不断变化的物理条件。例如,在几秒钟内就能从车轮卡住的困境中恢复过来,甚至能从腿部损坏等机械故障中迅速吸取教训

机器人数据瓶颈难题

多年来,机器人技术一直被同一个棘手问题所困扰,那便是如何构建能够在成千上万种环境中执行成千上万种任务,并且能够适应各种形态的机器人。虽然人工智能已通过结合大型数据集、大型网络和 GPU 训练的简单方法在语言和视觉呈现领域取得了显著成功,但可靠的物理 AI,即能够理解物理和空间关系并输出正确运动指令的 AI,却为我们带来了全新的挑战。

与拥有丰富互联网数据的领域不同,机器人技术一直面临着严重的数据缺乏问题。在真实世界中通过实体机器人采集数据既缓慢又昂贵。在操控机器人以进行数据采集的过程中,往往需要几分钟才能生成单个高质量演示,但要训练出有效的 AI 系统却需要数十亿个训练样本。缺乏足够训练数据的机器人无法可靠地执行任务,因而无法大规模部署以获取新的操作数据,进而用于训练更复杂的技能。这种限制使机器人技术一直囿于令人印象深刻的演示阶段,但实际成功部署的案例却很有限。

Skild AI

突破性架构:全载体基础模型

Skild AI 构建了一个真正意义上的机器人基础模型,名为 Skild Brain。与专用于特定类型机器人的其他机器人模型不同,Skild Brain 可实现全载体部署,这意味着它可以控制任何机器人,即使是在不知道机器人实际形态的情况下。就像人类的大脑一样,它有一个高层次的决策程序,用于决定机器人应该做什么 (比如“拿起那个杯子”);以及一个低层次的控制器,用于处理执行这些指令所需的精确“肌肉运动”。

为了克服数据短缺的难题,Skild AI 利用了两个替代数据源,即基于物理的合成数据生成,以及来自互联网的人类视频。与真实世界中的远程操作数据采集不同,这些数据源几乎可以无限扩展。将仿真复制到更多 GPU 上即可扩展其规模,同时互联网上还有不断增长的庞大视频数据集。

该公司的关键突破在于,其模型能够通过情境学习实现适应。通过分析哪些行动没有起到预期效果,机器人能够发展出类似直觉的能力,并根据不同的环境调整自己的行为。这使得机器人能够在复杂的环境中动态运行,而无需针对每种场景预先编写的指令。

Skild AI

远超过往的训练规模

Skild AI 使用 Isaac Lab 创建了必要的仿真训练场景,以便在具有挑战性的条件下开发机器人的强化学习。该公司利用 Cosmos Transfer,通过环境变化来放大训练数据集,从而扩展神经训练数据的范围和鲁棒性。这种多管齐下的仿真方法使 Skild AI 能够在数天内获得抵得上一千年的经验,从而以远超过往的速度实现大规模机器人训练。

Skild AI 创建了大规模仿真,其中包含数千个机器人实例,涵盖多种机器人形态,包括类人形机器人、四足机器人和机械臂。每个实例都具有独特的形态,并被部署在数千种环境中,以便尽可能提高泛化能力。这种合成数据生成训练为全载体机器人大脑提供了强力支持,可防止 AI 模型机械记忆适用于特定硬件配置的解决方案,并迫使它开发适用于所有机器人类型的情境学习策略。

通过先进的仿真技术生成合成数据是 Skild AI 技术栈的核心支柱之一。该公司通过基于物理的仿真生成了数十亿个训练示例,使机器人能够安全地经历广泛的故障场景。

这一点至关重要,因为机器人取得成功的方式相当有限,但能造成它们失败的情况却数不胜数,这使得我们无法通过传统数据采集方法获取所有失败场景。利用 Cosmos Transfer,Skild AI 能够通过文本提示来使数据集放大和倍增,生成各种环境条件、光照场景和视觉特征,从而尽可能提高训练的鲁棒性。仿真技术使机器人能够在各种环境中安全地经历数百万次故障,从而掌握正确的方法,并建立真实世界部署所需的鲁棒性。

该模型对于机械变化展现出了出色的适应能力。例如,在车轮卡住后只需 2-3 秒就能恢复;在腿部损坏后,会通过多次尝试来学习,而不是直接出现故障。这种适应能力可延伸到极端情况,包括踩高跷行走(腿身比例超出训练参数),这是一种零样本学习形式,体现了真正意义上的泛化能力。

第二个重要部分是从人类视频中学习。为了获取真实世界中的多样性,Skild AI 利用了网上的数万亿个视频,这些视频展示了人类在不同平台上执行各种任务的场景。通过将人类视为生物机器人,该公司开发出了先进技术,用于提取可供性 (affordance),即通过观察人类互动,帮助机器人大脑了解如何操控物体。

NVIDIA 的 AI 计算基础设施能够满足同时跨多种数据模态训练机器人基础模型的海量计算需求。通过由 NVIDIA 的加速计算、仿真库和框架共同构建而成的基础设施,Skild AI 以极具成本效益的硬件取得了突破性成果,开发出的成本仅为 4,000 美元至 15,000 美元的机器人,而传统的机器人系统则需要 25 万美元以上的投资。

被验证的真实世界性能

Skild 发布了近期成果,以展示全载体机器人大脑在各种场景下的能力。

利用视觉完成端到端运动

Skild Brain 能够实现完全由在线视觉和本体感觉驱动的端到端运动控制。该模型可根据原始相机图像和关节反馈,直接输出低级运动指令,使人形机器人能够在平地上行走及攀爬高大的障碍物。即使手中拿着包裹等有效载荷,这些机器人也能保持惊人的灵活性。

Skild AI 在匹兹堡充满挑战性的城市环境中测试了其类人形机器人,这些机器人在测试中展现出了实际能力,在进行数据采集后的几个小时内,就达到了 60%–80% 的任务完成率。这些机器人成功执行了复杂的操控任务,同时对人类干扰和环境变化始终都有着较强的适应能力。在测试过程中,它们需要穿过城市公园和街道、爬上消防梯、在陌生环境中翻越各种障碍,而这一切都没有进行过事先规划或映射。

精确可靠的操控

实现真实世界任务的自动化需要高度精确性和可靠性。Skild AI 展示了这款机器人大脑自动执行多项实用任务的能力,例如清理家庭办桌,以及将 AirPods 插入充电盒,后者目前仍需人工完成,且每日合计花费数千小时。

对于极端情况的适应能力

Skild 展示了这款机器人大脑适应极端场景(例如失去一个或多个肢体)的能力。在这种情况下,机器人大脑会利用情境学习,并通过与环境互动来恢复。

展望未来:“以一款‘大脑’适配所有机器人”愿景

Skild AI 正在开发可适应不同机器人平台的通用智能。该公司致力于扩展规模,旨在为所有机器人形态、所有任务和所有场景创建一款通用的“大脑”,这种机器人大脑以行动为中心,专为物理 AI 应用而设计。

Skild AI 的工作表明,机器人技术的未来不在于采集更多机器人数据,而在于明智地利用现有的海量仿真数据和人类行为数据,并使用能够持续适应真实世界的高级 AI 系统进行处理。

“机器人将从经验中学习,而不是依赖预先编程,这为机器人领域带来了重大变化。NVIDIA Isaac Lab 和 Cosmos 技术使我们能够创建海量且可扩展的数据源,这一点至关重要,这使机器人能够真正跨各种场景和形态学习各类经验。”

Deepak Pathak
Skild AI 联合创始人兼首席执行官

探索 NVIDIA Isaac 开放机器人平台,以便加速您的端到端机器人开发、仿真、合成数据生成和机器人学习框架,从而实现远超过往的训练规模。

相关客户案例